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第 1 篇 基 础 篇 
第 1 章 SAS 概述 与 整体 架构 
1.4 ”SAS 概述 


SAS (Statistical Analysis Software 〉 曾 是 一 个 著名 的 统计 软件 ， 
前 在 金融 、 数 据 挖 


合 的 组 合 应 
M AAH 


软件 系统 。SAS H 
儿 构 、 科 研 院 所 等 领域 


pA 


目前 已 经 发 展 成 为 一 个 综 
昨 、 医 药 、 电 信 、 统 计 学 、 商 业 智 能 (BI)、 


通过 本 章 的 学 习 ， 读 者 可 以 了 解 SAS 语言 和 SAS 工 


构 。 从 而 根据 需要 去 学 习 SAS 的 特定 模块 。 


1.1.1 SAS 


SAS 软 伯 
做 各 


现在 已 经 成 为 


介绍 


是 在 20 世纪 70 年 代 由 北 卡 多 来 纳 州立 大 学 编写 的 ， 当 时 用 来 处 到 
E 物 分 析 用 。 随 着 SAS 的 发 展 ，SAS 研究 院 于 1975 年 成 立 。SAS 公司 逐渐 发 展 由 


世界 最 大 的 狐 
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YET o 


数据 库 ， 

SAS fft 
也 促进 
已 经 成 为 了 一 


1.1.2 SAS 


内 部 自 带 函数 和 过 程 一 直 在 增加 ， 


在 最 新 版 本 9 系列 中 ,SAS 927] 


T SAS 的 发 展 。SAS 语言 和 SAS T 
的 组 合 软件 ， 应 用 领 
数据 挖掘 、ETL 数据 处 到 


综合 


个 综合 


行业 应 用 现状 


导 到 了 广泛 的 应 用 


中 SAS 统计 分 析 指 标 为 国际 标准 。 
日 合 软件 的 体系 ， 把 握 SAS 的 整体 架 
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xj 


数据 ， 
EK, 


EAFA. 目前 最 新 版 本 是 9 系列 。 随 着 版 本 的 发 展 ， 
功能 逐渐 强大 和 完善 ， 


图 形 化 的 操作 也 变 得 更 


F 始 支持 自 


这 是 SAS 软件 的 一 大 飞跃 ， 也 是 SAS 9 系列 的 
FA 20 世纪 70 年 代 诞生 到 目前 已 经 成 为 


定义 函数 , 同时 SAS 也 有 了 自己 的 数据 库 一 一 SPDS 
一 个 亮点 ， 显 示 了 SAS 的 强大 功能 。 


OFCA 
此 界 公认 的 国际 标准 软件 。SAS 系统 是 


LE 论 和 实际 应 用 结合 起 来 的 一 个 组 合 软 人 


F 系 统 。SAS 的 强大 功能 和 应 用 领域 的 广泛 性 


将 越 来 越 强 大 ， 具 有 的 模块 和 功能 也 越 来 越 多 ， 


SAS 


目前 主要 应 用 在 金融 、 商 业 


H o6 
智能 、 


院 所 等 领域 。 


目前 全 世界 和 


民 多 国家 都 在 使 用 SAS。SAS 在 


用 评分 、 fà 
Load, ETL), 


前 端 展现 工具 SAS/SAS portal 月 
连接 SAS 服务 器 ， 是 


TRA 


Jo A 
E. SPDS 数据 库 、 统 计 分 析 、 数 据 分 析 等 。 


的 统计 分 析 ， 发 展 到 目前 的 OLAP 分 析 、 


数学 、 通 信 、 经 济 、 生 物 医药 、 教 育 机 构 和 科 和 
金融 领域 可 以 用 来 做 风险 分 析 ， 信 


上 


处 


REDRA, JEER 
大 数据 量 的 数据 。 在 BI (Business Intelligence， 商 业 智 能 ) 方面 SAS 通过 


5j 


取 、 转 换 与 装载 的 工作 (Extract, Transform and 


H 


于 报表 的 天 


F 发 SAS 程序 的 客户 端 工具 。 


F 发 。SAS /EG 组 件 是 SAS 的 一 个 客户 端 ， 可 以 


SAS 目前 在 统计 分 析 领 域 是 世界 上 公认 的 最 具 权威 的 统计 分 析 工 具 ， 统 计 分 析 指 标 获 得 
际 公 认 。 
SAS 在 金融 领域 可 以 对 客户 消费 类 型 、 信 用 评分 、 风 险 控制 进行 分 析 ， 挖 掘 潜在 客户 。 
SAS 在 数据 挖 抉 领域 已 经 开发 出 很 多 业界 成 熟 的 模型 ， 如 决策 树 、 神 经 网 络 、 逻 辑 回 归 
等 模型 。 
SAS 在 商业 智能 方面 ， 已 经 开发 出 SAS portal 做 报表 开发 。 
SAS 目前 在 生物 医药 领域 可 以 用 来 对 生物 医药 研发 的 指标 进行 统计 分 析 。 
通过 以 上 所 列举 的 领域 ， 可 以 看 到 SAS 的 应 用 领域 非常 广泛 ， 发 展 前 景 有 目 共 睹 。SAS 
工具 集成 了 很 多 数学 领域 的 公式 ， 用 户 可 以 直接 调用 封装 好 的 数学 公式 来 进行 指标 的 分 析 。 
只 需要 知道 这 些 分 析出 来 的 指标 代表 什么 意义 ， 就 可 以 根据 这 些 指标 写 出 分 析 报 告 ， 做 出 对 
未 来 的 预测 和 决策 支持 。 


H 


1.2 SAS 整体 架构 


SAS 已 经 发 展 成 为 一 个 综合 的 组 合 软件 系统 ， 理 解 并 了 解 SAS 系统 的 整体 架构 可 以 
更 清晰 地 认识 SAS 每 一 个 模块 具体 实现 的 功能 ， 同 时 更 能 深入 了 解 各 模块 之 间 的 联系 和 依 
MER. 
1.2.1 SAS 整 体 架 构 流 程 

SAS 整体 架构 流程 如 图 1-1 所 示 。SAS 平台 架构 主要 由 4 层 组 成 ， 分 别 是 客户 端 层 、 中 
间 层 、 服 务 层 和 数据 层 。 中 间 的 “元 数据 服务 ”是 SAS 系统 对 元 数据 的 管理 与 维护 ， 是 其 他 
4 层 的 基础 核心 部 分 ， 与 其 他 4 层 动态 交互 。 


SAS/Enterprise SAS/Management||c4c/v; 
Guide Console SAS/Visual BI 


SAS/Integration 
Studio 


中 间 层 


Remote 
Server 


Table 
Server 


Je Server 
服务 层 
1-1 SAS 整体 架构 流程 


DS 


1. 客户 端 层 


客户 端 层 是 用 户 实现 与 SAS 服务 器 交互 的 前 端 工 具 , 通过 客户 端 工具 操作 SAS 系统 ,从 
而 利用 SAS 具有 的 服务 。 常 用 的 SAS 客户 端 工具 如 下 。 
1) SAS/EG (Enterprise Guide): SAS 的 前 端 工具 ， 用 户 通 过 SAS/EG 连接 SAS 服务 器 ， 


如 图 1-2 所 示 。 
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2) SAS/Management Console: SAS 对 SAS 服务 器 、SAS 逻辑 库 注册 已 经 授权 管理 等 可 
以 通过 此 界面 工具 进行 设置 管理 SAS 用 户 和 权限 控制 ， 如 图 1-3 所 示 。 


了 局 SAS Nanagement Console 一 


AEQ) 898 0) WAV HW 


KALI d 
插件 | 文件 来 | 
SAS* Management Console 
TFE QD: n Foundation he 
Ej SAS Management Console 环境 管理 
日 puis 用 户 用 来 配置 SAS 资源 的 插件 ， 葬 如 服务 器 、 元 数据 宇 存 库 、 数 据 远 辑 库 、 用 户 、 姐 和 角色。 
MEEIVE 授权 管理 器 
a- C 访 问 控制 模板 fe 授权 管理 器 
由 资源 管理 管理 资源 访问 控制 策略 。 
i Bg 数据 逻辑 库 管理 器 
| : was j 入 数据 远 辑 库 管 理 器 
-G 用 户 管理 器 管理 当前 元 数据 服务 器 上 的 逻辑 库 定 多。 
[3 unn 
维护 EXT 
OTARRE 创建 和 管理 用 户 、 姐 和 角色 。 
监视 
用 来 鉴 视 并 报告 有 关 sas 应 用 程序 信息 的 插件 。 
维护 
用 户 用 来 管理 sas 应 用 程序 的 安装 和 更 新 的 插件 。 
应 用 程序 管理 


3) SAS/Visual BI: SAS 
Mining 〈 数 据 挖 掘 )。 


用 户 用 来 根据 特定 业务 需求 配置 应 用 程序 的 插件 ， 包 括 SAS 插件 和 用 户 创建 的 插件 。 


1-3 SAS Management Console 
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过 此 类 工具 可 以 浏览 商业 智能 所 挖掘 的 信息 ， 如 SAS/Data 


4) SAS/OLAP Cube Studio: SAS 连接 分 析 的 客户 端 工具 ， 如 SAS 报表 开发 、 查 询 。 
5) SAS/Web Browser: SAS 系统 网 页 版 的 Web 方式 浏览 结果 展现 的 一 种 形式 。 


6) SAS/Integration Studio: SAS 系统 对 数据 整合 的 工具 。 


2. 数据 层 
数据 层 是 SAS 系统 具有 的 数据 格式 ， 存 储 SAS 
如 下 。 


能 够 处 理 的 各 种 数据 。 常 见 的 数据 类 型 


RDBMS Tables: SAS 系统 对 关系 数据 库 数据 的 表 信 息 存 储 ， 如 Oracle 数据 库 数 据 。 
Data Sets: SAS 系统 数据 步 生 成 的 数据 ， 称 为 SAS 数据 集 。 


OLAP Cubes: 联机 分 析 的 多 维 立 方 体 数 据 。 


SPDS Files: SAS 具有 的 SPDS 数据 库 生 成 的 数据 格式 。 


Other DATA Sources: SAS 系统 具有 的 其 他 数据 源 ， 这 里 不 再 列举 。 


3. 服务 层 
SAS 系统 的 服务 层 是 对 其 他 层 提供 服务 支持 的 。 


常见 的 服务 层 如 下 。 


SAS/Connect server: SAS 系统 提供 连接 各 服务 器 的 服务 ， 如 连接 外 部 数据 文件 或 关系 数 


据 库 的 服务 。 


OLAP Server: SAS 系统 提供 联机 分 析 的 服务 处 理 。 


Table Server: SAS 系统 对 表 信息 提供 的 服务 处 理 。 
Workspace Server: SAS 系统 对 空间 维护 与 分 配 提 
SAS/Share server: SAS 系统 提供 的 共享 服务 处 理 。 


H 


是 供 的 存储 空间 服务 处 理 。 


Stored Process Server: SAS 系统 提供 的 对 各 进程 的 服务 。 


4. 中间 层 


中 间 层 属于 SAS 系统 与 元 数据 层 交 互 需要 过 渡 的 层 ， 实 现 临时 处 理 服务 ， 使 系统 性 生 


、 更 快 。 常 见 的 中 间 层 如 下 。 


zn 


val 


Web Application Server: SAS 系统 为 Web 应 用 层 服务 提供 的 服务 。 

Web Report Studio: SAS 系统 为 报表 展现 提供 的 服务 。 

BI Dashboard: 丙 业 智能 控制 面板 是 向 企业 展示 度量 信息 和 关键 业务 指标 KPI) 现状 的 
数据 虚拟 化 工具 。 控 制 面板 在 一 个 简单 屏幕 上 整理 数字 、 公 制 metric). 和 绩效 记分 卡 。 通 过 


调整 适应 特定 角色 并 展示 为 单一 视角 或 部 门 指定 的 度量 指标 信息 。 它 具有 动态 交互 功能 ， 可 


以 传输 到 iPad 上 展示 。 


Remote Servers: SAS 系统 为 远程 其 他 的 服务 端 提供 服务 。 


1.2.2 SAS 各 模块 实现 功能 


SAS 系统 目前 模块 众多 ， 已 经 发 展 成 为 一 个 功能 强大 的 组 合 应 用 软 性 系统 。 每 一 个 模块 


都 是 为 满足 用 户 不 同 的 需求 实现 不 同 的 功能 而 开发 的 ， 理 解 这 些 模块 的 功能 可 以 帮助 用 户 灵 
活 选择 模块 ， 有 针对 性 地 应 用 和 学 习 这 些 模块 ， 而 不 是 全 部 都 去 研究 学 习 。SAS 系统 常用 模 


块 及 功能 如 表 1-1 所 示 。 


SAS 主要 模块 


表 1-1 SAS 常用 模块 及 功能 


模块 功能 


SAS 系统 的 核心 模块 ， 是 所 有 产品 模块 的 基 而 


上 ， 实 现 模块 的 调度 、 数 据 管理 、 数 据 访问 ， 


BASESAS 支持 关系 数据 库 SQL 语言 的 处 理 ， 统 计 分 析 的 基础 和 报表 生成 的 基础 模块 
连接 其 他 数据 库 的 接口 ， 如 连接 Oracle 数据 库 、DB2、Sybase 和 Informix 等 主流 关系 数 
pondo 据 库 ， 实 现 SAS 与 数据 库 的 交互 操作 
SAS 对 外 部 文件 的 读 取 和 生成 各 类 型 的 文件 需要 调用 此 模块 ， 如 读 取 .dat 格式 文件 、.tx 
格式 文件 、.csv 格式 文件 和 COBOL 语言 生成 的 IBM 主机 文件 等 都 需要 调用 此 模块 。 通 过 
ER 此 模块 把 文件 转换 成 SAS 能 够 识别 的 数据 集 ， 再 运用 其 他 模块 进行 分 析 、 报 表 生成 、 作 区 
等 。 该 模块 实现 对 文件 的 处 理 
SAS/EM 实现 数据 挖掘 的 功能 ， 在 这 个 模块 里 实现 了 SAS 的 SEMMA 数据 挖掘 模式 ， 同 时 还 有 可 
以 直接 应 用 的 数据 挖掘 模型 
SAS/STAT 统计 分 析 应 用 模块 ， 是 统计 学 学 习 者 应 用 的 模块 ， 主 要 运用 在 统计 领域 ， 如 回归 分 析 、 
相关 分 析 、 因 子 分 析 、 聚 类 分 析 和 判别 分 析 等 分 析 功能 
Um SAS 系统 前 端 登录 模块 ， 可 以 编写 SAS 程序 ， 实 现 与 服务 器 的 交互 ， 属 于 一 个 图 形 化 操 
作 界面 
SAS Manavement Consolë SAS 系统 的 Management Console 模块 属于 一 个 图 形 化 的 模块 ， 实 现 对 SAS 系统 的 管理 、 
s 户 权限 控制 与 分 配 、 逻 辑 库 管理 等 功能 
SAS/Portal SAS 系统 的 Portal 模块 是 SAS 系统 实现 报表 开发 的 了 


[ 具 ， 通 过 此 模块 可 以 


发 报表 
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2.1 逻辑 库 定义 与 应 用 案例 


SAS 通过 逻辑 库 建立 与 关系 数据 库 或 外 部 数据 文件 的 连接 。 逻辑 库 是 SAS 与 外 部 环境 交 
互 数据 的 通道 。 


2.1.1 逻辑 库 的 作用 与 定义 


1. 逻辑 库 的 作用 
SAS 逻辑 库 是 一 个 逻辑 标识 ， 真 正 对 应 的 是 指向 物理 文件 路 径 ， 用 来 告诉 SAS 数据 集 或 
数据 文件 存储 到 什么 位 置 的 一 个 逻辑 标识 。 通 过 逻辑 库 来 告诉 SAS 系统 数据 集 是 存储 在 哪个 
文件 夹 下 物理 位 置 。 引 用 对 应 逻辑 库 下 的 数据 文件 只 需 用 逻辑 库存 储 目 录 下 的 数据 集 名 就 可 
以 直接 引用 。 如 果 在 生成 一 个 数据 集 时 没有 指定 逻辑 库 ，SAS 默认 存储 在 临时 逻辑 库 Work 
下 面 ， 当 SAS 结束 会 话 退 出 SAS 系统 时 ， Work 逻辑 库 的 数据 集会 被 自动 删除 ， 不 保存 数据 
集 。 人 为 建立 的 逻辑 库 是 永久 逻辑 库 ， 退 出 会 话 后 永久 逻辑 库 所 对 应 目录 下 的 数据 集 仍 保 留 
在 对 应 物理 位 置 。 
SAS 逻辑 库 是 SAS 系统 建立 与 外 部 关系 数据 库 或 外 部 数据 文件 交互 的 通道 , 通过 逻辑 库 
实现 数据 互通 。 逻 辑 库 分 为 永久 逻辑 库 和 临时 逻辑 库 。 
永久 逻辑 库 此 类 逻辑 库 中 对 应 的 数据 不 会 随 着 SAS 的 关闭 与 退出 消失 。 
临时 逻辑 库 ， 此 类 人 逻辑 库 中 对 应 的 数据 会 随 着 SAS 的 关闭 或 退出 消失 。 
SAS 系统 本 身 自 带 的 逻辑 库 如 下 。 
Sashelp 逻辑 库 : 存储 SAS 帮助 的 数据 集 数据 的 永久 逻辑 库 ， 只 读 逻 辑 库 。 
Sasuser 逻辑 库 : 存储 用 户 文件 的 逻辑 库 。 
Work 临时 逻辑 库 ， 存 储 临时 数据 集 ， 退 出 会 话 后 数据 集 不 再 存在 。 
为 便于 理解 逻辑 库 的 作用 ， 首 先 在 自己 的 计算 机 上 运行 如 下 SAS 程序 ， 带 着 对 这 个 程序 
的 疑问 去 理解 和 学 习 逻 辑 库 。 
【 例 2.1】 创建 客户 信息 数据 集 ， 存 储 到 d:yx 文件 夹 目 录 下 。 
libname jx 'd:yjx; 放 创建 逻辑 库 jx ， 对 应 的 物理 位 置 为 djx*/ 
data jx.custer; /*custer 数据 集 存 储 到 jx 逻辑 库 下 */ 
input id name $ sex $ jf 
CARDS; 
1000001 刘 小 华 M 100 
1000002 董 大 帅 F3000 
1000003 郭 美玉 M 6000 


run; 


proc print data-jx.custer ;/# 打 印 数据 集 输出 到 窗口 交 
P* 引用 逻辑 库 jx 的 custer 数据 集 */ 
run;/* 结 束 标志 */ 
2. 逻辑 库 的 定义 
SAS 逻辑 库 分 为 两 类 ， 一 类 是 建立 与 外 部 数据 文件 连接 的 逻辑 库 ， 另 一 类 是 建立 与 关系 
数据 库 连 接 的 逻辑 库 。 
D 建立 与 外 部 数据 文件 或 SAS 数据 集 连 接 的 逻辑 库 语 法 ; 
libname 逻辑 库 名 “物理 路 径 '< 选 项 >; 
【语法 解读 】 libname 为 建立 逻辑 库 关 键 字 ， 必 选项 。 
逻辑 库 名 为 符合 命名 规范 的 名 字 。 
“物理 路 径 ' 为 数据 文件 存储 路 径 。 
< 选项 > 为 可 选项 ， 对 逻辑 库 设 置 的 选项 ， 如 compress=yes、insertbuff= 等 。 
【 例 2.2】 通过 SAS 建立 与 dx 文件 夹 存储 的 数据 逻辑 库 ， 逻 辑 库 名 为 jxsj。 


libname jxsj 'DNx' compress-yes; /*compress-yes 表示 存储 数据 为 压缩 格式 存储 */ 


2) 建立 与 关系 数据 库 连 接 的 逻辑 库 语 法 : 
libname 逻辑 库 名 库 引 擎 user= 数 据 库 用 户 名 password= 数 据 库 密码 path= 数 据 库 实例 
< 选项 >; 
【语法 解读 】 库 引 擎 为 关系 数据 库 引 擎 ， 如 Oracle、Teradata、DB2、MySQL、SASSPDS 
等 关系 数据 库 引 擎 。 
user= 数 据 库 用 户 名 : 登录 关系 数据 库 的 用 户 名 。 
password= 数 据 库 密码 : 登录 关系 数据 库 的 密码 。 
path= 数 据 库 实例 : 登录 关系 数据 库 的 实例 。 
【 例 2.3】 建立 SAS 与 关系 数据 库 Oracle HRE, ZERAN jx 永 ， 登 录 个 人 Oracle 
数据 库 。 本 机 登录 Oracle 数据 库 用 户 名 为 chiran， 密 码 为 chiran， 数 据 库 实例 为 orcl， 有 具体 实 
验 时 要 修改 自己 本 机 的 库 连 接 信息 。 
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libname jxlk oracle user-chiran password-chiran  path-orcl; 


【语法 解读 】 jxlk 逻辑 库 作为 一 个 桥梁 ， 建 立 SAS 与 Oracle 数据 库 连 接 的 通道 ， 使 SAS 
数据 与 Oracle 数据 库 中 的 数据 可 以 互相 交换 。 数 据 库 中 的 表 直 接 通过 逻辑 库 就 可 以 引用 到 
SAS 环境 中 来 。 

【 例 2.4】 SAS 连接 自己 的 spds 数据 库 ， 建 立 逻 辑 库 名 为 cr。 

libname cr sasspds 'ycr host=' 主 机 名 ' service=' 服 务 器 端口 号 ”user=' 用 户 名 ' password=' 密 码 '; 

【说 明 】 SASSPDS 库 引 擎 是 SAS 自己 的 数据 库 。 

3. 引用 逻辑 库 

引用 人 逻辑 库 是 对 创建 好 的 逻辑 库 所 对 应 的 数据 文件 或 数据 集 , 或 外 部 数据 库 数据 的 数 
据 应 用 。 
建立 逻辑 库 的 目的 就 是 引用 逻辑 库 所 对 应 的 数据 。 在 数据 步 或 过 程 步 中 通过 逻辑 库 来 调 
用 所 需要 的 数据 集 。 


引用 逻辑 库 语 法 : 逻辑 库 名 .数据 集 名 。 
【注意 】 中 间 用 英文 状态 下 的 点 分 割 。 引 用 非 临 时 逮 辑 库 的 数据 集 使 用 两 级 命名 方式 ， 
引用 Work〈 临 时 逻辑 ) 的 数据 集 时 ， 可 以 直接 使 用 数据 集 名 。 
【 例 2.5】 打印 输出 jx 逻辑 库 中 的 数据 集 custer。 
Proc print data-jx.custer ;/*jx 逻辑 库 名 ，custer 是 jx 逻辑 库 下 对 应 的 数据 集 名 */ 
/[* 引用 逻辑 库 jx 的 custer 数据 集 */ 


run;/* 结 束 标志 */ 


2.1.2. Windows 环 境 与 UNIX 环 境 创建 逻辑 库 


SAS 服务 器 安装 在 Windows 服务 器 上 时 ， 其 创建 逻辑 库 时 需要 注意 书写 物理 路 径 ， 与 
UNIX 环境 书写 物理 路 径 不 同 ， 对 比 学 习 ， 可 以 看 到 它们 之 间 的 差异 。 对 于 与 外 部 数据 文件 存 
储 目录 建立 逻辑 库 而 言 ， 其 书写 物理 路 径 方式 不 同 。 

1. Windows 环 境 

服务 器 物理 路 径 写法 如 下 : 

盘 符 文件 夹 路 径 

【 例 2.6】 建立 SAS 与 dx 路 径 下 的 文件 夹 逻 辑 库 。 


libname jx 'd:\Jjx'; 
2. UNIX 环境 
服务 器 物理 路 径 写 法 如 下 : 


/文件 夹 路 径 
【 例 2.7】 建立 SAS 5/home/db/test 路 径 下 的 文件 夹 逻 辑 库 。 


libname ux "home/db/test'; 
通过 上 面 的 案例 可 以 看 出 ，Windows 服务 器 环境 与 UNIX 服务 器 建立 逻辑 库 的 差异 主要 
是 书写 数据 存储 物理 路 径 的 方式 不 同 。 


2.1.3 ”逻辑 库 与 关系 数据 库 的 连接 方式 


aped dig 的 连接 方式 主要 有 以 下 两 种 

. 宏 变量 书写 方式 连接 关系 数据 库 。 
ri 2.8] Oracle 数据 库 ， 作 者 个 人 本 机 登录 Oracle 数据 库 的 用 户 名 为 chiran， 密 码 为 
chiran， 数 据 库 实例 为 orcl， 通 过 SAS 逻辑 库 建 并 SAS 与 Oracle 数据 库 的 连接 通道 。 


libname jx oracle user-chiran password=chiran path=orcl; 


2. SQL 过 程 连 接 关 系数 据 库 。 
【说 明 】 SQL 过 程 是 SAS 系统 自 带 的 过 程 ， 用 户 可 以 直接 调用 。 
【 例 2.9】 SQL 过 程 与 宏 变 量 结合 应 用 连接 关系 数据 库 ， 对 例 2.8 进行 改造 。 


%let jx connect-user-chiran password=chiran path=orcl;”* 定 义 连接 数据 库 的 宏 变 量 */ 
proc sql noprint 。 /* 调 用 SAS 内 部 SQL 过 程 */ 


connect to oracle (&jx connect ， # 取 连接 数据 库 的 宏 变 量 jx connect*/ 
select * into :v sjfrom connection to oracle 


(select to char(bksj,yyyymmdd') from sj); 
Execute (create table jxc as select* from sj) by oracle; 
disconnect from oracle; 
quit; 
【程序 解读 】 
1) %let jx connect-user-chiran password-chiran path=orcl: 定义 连接 数据 库 宏 变量 语句 ， 
通过 此 语句 把 数据 库 的 连接 信息 赋值 给 宏 变 量 jx. connect. 

2) connect to oracle (&jx connect): 通过 connect to oracle 固定 语句 建立 连接 Oracle 关系 

数据 库 的 连接 方式 ，&jx_connect 取 连 接 Oracle 数据 库 的 连接 信息 。 


3) select * into: v sj from connection to oracle 


( select to char(bksj,'yyyymmdd" from sj); 
execute (create table jxc as select * from sj) by oracle; 
上 面 的 语句 为 SQL 过 程 中 可 执行 的 SQL 语句 。 
4) disconnect from oracle: 固定 语句 ， 断 开 与 Oracle 数据 库 的 连接 。 
5) quit: SQL 过 程 的 结束 标志 。 
【 例 2.10】 对 例 2.8 进行 改造 ， 通 过 SQL 过 程 连接 数据 库 ， 查 询 数据 库 表 sj FEK 
字段 bksj 数据 赋值 给 v_ sj， 通 过 此 过 程 创建 一 个 新 表 jccre。 
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proc sql noprint; 
connect to oracle (user-chiran password-chiran path-orcl); 
select * into :v sj from connection to oracle 
(select to char(bksj,yyyymmdd") from sj); 
execute (create table jxcre as select * from sj) by oracle; 
disconnect from oracle; 


quit; 


【程序 解读 】 connectto oracle (user-chiran password-chiran path-orcl): 此 语句 括号 内 直 
接 写 连接 数据 库 的 登录 用 户 信息 , 对 比例 2.8 宏 变 量 的 方式 , 可 以 看 出 这 是 两 种 不 同 的 书写 方 
式 ， 具 体 选 择 哪 种 方式 需要 根据 实际 开发 确定 。 两 种 方式 都 能 实现 关系 数据 库 的 连接 ， 但 宏 
变量 的 方式 更 方便 管理 和 修改 ， 尤 其 是 需要 经 常 更 改 用 户 登录 关系 数据 库 信息 的 地 方 。 


2.2 SAS 编程 语法 


学 习 SAS， 首 先 需要 掌握 这 种 编程 语言 的 编程 语法 。SAS 编程 语言 是 SAS 编程 的 基础 ， 
是 其 他 综合 开发 应 用 的 基础 。 把 SAS 编程 语句 融合 在 应 用 案例 中 详细 讲解 ， 更 能 把 理论 和 实 
践 结合 起 来 。 在 实践 中 去 学 习 SAS 编程 语言 也 是 最 快 最 有 效 地 掌握 SAS 的 一 种 学 习 方 式 , Te] 
时 能 体验 到 业界 真正 应 用 的 知识 点 。 学 好 本 章 也 是 学 习 后 面 经 典 案例 、 统 计 分 析 、 数 据 挖掘 
和 模型 开发 的 基础 。 


im 
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变量 是 指 没有 固定 的 值 ， 可 以 改变 的 数 。 变 量 用 于 描述 某 字段 的 属性 。 例 如 ， 一 个 人 具 
有 年 龄 ， 年 龄 就 属于 一 个 变量 。 对 于 一 个 SAS 数据 集 或 关系 数据 库 中 的 表 而 言 ， 表 中 定义 的 
列 中 的 变量 是 有 属性 的 ， 如 字符 、 数 值 、 日 期 等 。SAS 中 的 变量 有 两 种 类 型 : 数值 型 和 字符 
型 。SAS 中 的 变量 在 使 用 时 不 需要 定义 ， 它 属于 弱 类 型 的 ， 有 具体 类 型 依赖 赋值 类 型 。 

(1) 变量 命名 规范 

SAS 中 变量 的 命名 规范 是 以 字母 (a，b，c，…，z) 或 下 画 线 “″ ”开始 ， 字 母 不 区 分 大 
小 写 ， 后 面 的 字符 可 以 是 数字 、 字 母 或 下 画 线 。 不 能 在 定义 变量 中 使 用 系统 保留 的 名 称 ，〈 如 
“al”, *N"., * ERROR ”、“ INFILE " 4l *^ CHARACTER ”等 ) ， 不 能 使 用 
特殊 字符 (如 %、 及 、#) 和 空格 ， 最 长 32 个 字符 。 

下 面 举 几 个 例子 帮助 读者 理解 命名 规范 。 

【 例 2.11】 变量 命名 举例 。 
正确 的 命名 : z. y.k. 
错误 的 命名 : "ox. &. 

(2) 变量 赋值 

SAS 编程 中 给 变量 赋值 的 一 种 方式 是 在 数据 步 中 通过 INPUT 语句 将 外 部 文件 中 的 数据 、 
CARDS 或 DATALINES 后 面 的 输入 数据 赋值 给 变量 。 也 可 以 在 数据 步 中 直接 给 变量 赋值 。 如 
果 是 外 部 存在 的 数据 文件 , 读 入 时 用 INFILE 语句 获取 外 部 数据 文件 , 但 字段 变量 要 在 INPUT 
语句 中 定义 。 男 一 种 方式 是 通过 宏 变 量 直 接 给 变量 赋值 。 

【注意 】 INPUT 语句 读 入 的 字符 变量 默认 长 度 为 8 个 字 节 ， 超 过 8 个 字 节 就 要 使 用 
LENGTH 语句 先 定义 变量 并 指明 其 长 度 。 

【提示 】 INPUT 语句 和 LENGTH 语句 中 定义 的 变量 如 果 是 字符 型 的 要 加 $。 

【 例 2.12】 数据 步 中 定义 变量 x 和 y， 并 给 其 赋值 。 


DATA bl; 

x-2; /数据 集中 定义 变量 x， 是 数值 型 的 
y="abcd'’;，/* 数 据 集中 定义 变量 y， 是 字符 型 */ 
RUN; 


[512.13] 读 取 客 户 身 份 证 号 信息 和 性 别 的 数据 ， 建 立 数 据 集 custer。 


DATA custer; 
length sf $18; 必 数 据 集中 定义 身份 证 号 变量 sft， 是 字符 型 的 加 $ 符 号 */ 

input sf sex $; /*sex 变量 类 型 为 字符 类 型 ， 加 $ 符 号 ， 取 默认 长 度 8 字 节 存储 */ 
CARDS; 

170826186532435435 
2103567892358757763 
334567889123445566 
434567789009898753 
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RUN; 
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【程序 解读 】 
D 由 于 身份 证 号 变量 sf 的 长 度 超过 SAS 默认 的 长 度 8B， 需 要 首先 通过 length 语句 定义 
变量 sfo 
2) INPUT 语句 中 直接 引用 定义 的 变量 sf， 并 可 以 直接 定义 变量 sex， 然 后 用 PDV 指针 
空 制 读 取 CARDS 语句 中 的 数据 。 
【 例 2.14】 直接 给 宏 变 量 赋值 。 
Volet wj='d:\Jjx\stu.txt'; 
/# 宏 变量 wj 直接 赋值 ， 把 路 径 文件 diyjx\stu.txt 赋值 给 宏 变 量 wj*/ 
【程序 解读 】 
Volet 语句 定义 宏 变 量 wj， 这 个 变量 存储 的 值 为 外 部 文件 存储 位 置 的 物理 路 径 。 
(3) 变量 类 型 转换 规则 
SAS 对 于 字符 型 与 数值 型 之 间 自 动 转换 的 规则 如 下 : 
1) 字符 型 转换 为 数值 型 。 
@ 字符 型 变量 和 数值 型 变量 做 运算 或 比较 运算 时 ， 字 符 型 变量 自动 转换 为 数值 型 变量 。 
e 字符 型 变量 赋值 给 数值 型 变量 时 ， 字 符 型 变量 自动 转换 为 数值 型 变量 。 
【 例 2.15】 字符 y 变量 自动 转换 为 数值 型 ， 与 x 做 加 法 运算 。 


me 


data qsum; 
x-l; 人/# 定 义 为 数值 型 变量 x*/ 
y='2'; /# 定 义 为 字符 型 变量 y*/ 
sum-x-ty; /*y 字符 型 变量 自动 转换 为 数值 型 做 运算 */ 
run; 
【程序 解读 】 由 于 SAS 属于 弱 类 型 语言 ，y 变量 为 字符 类 型 ， 引 用 y 与 x 变量 一 起 做 加 


法 运算 时 自动 转化 为 数值 类 型 ， 并 把 求 得 的 和 赋值 给 sum. 

2) 数值 型 转换 为 字符 型 。 

e 数值 型 变量 赋值 给 字符 型 变量 时 ， 数 值 型 变量 自动 转换 为 字符 型 变量 。 
@ 数值 型 变量 与 字符 型 变量 做 字符 连接 运算 时 ， 数 值 型 变量 自动 转换 为 字符 型 变量 。 
@ 数值 型 变量 用 在 字符 处 理 函 数 中 时 ， 数 值 型 变量 自动 转换 为 字符 型 变量 。 
【 例 2.16】 数值 型 变量 y 与 字符 型 变量 ch 做 连接 运算 。 

data substr; 

y=10; 上 # 定 义 为 数值 型 变量 y*/ 

ch='hellow'; FENKT ch*/ 

v substr-ch|y; /*v_substr 数值 型 变量 自动 转换 为 字符 型 变量 做 连接 运算 */ 


run; 
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【程序 解读 】 数据 步 中 变量 y 为 数值 类 型 ， 变 量 v_substr 的 值 为 ch 变量 与 y 变量 的 连接 
串 的 值 ， 此 处 y 变量 自动 转换 为 字符 类 型 。 
【 例 2.17】 用 字符 型 函数 把 数值 型 变量 自动 转换 为 数值 型 。 
data ytochar; 
y=62345679; 上 # 定 义 为 数值 型 变量 y*/ 


DAL 


c-substi(y,5,6); 人 * 字 符 型 函数 截取 数值 型 变量 自动 将 y 转换 为 字符 型 变量 */ 
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run; 


【程序 解读 】 数据 步 中 变量 y 为 数值 , 变量 c 中 的 值 为 通过 字符 处 理 函 数 substr 截取 的 y 
变量 的 值 ， 此 处 y 自动 转化 为 字符 类 型 引用 。 

【提示 】 此 处 y 在 字符 函数 中 被 转换 为 BEST12. 的 输出 格式 。 字 符 值 右 对 齐 ， 相 当 于 左 
边 补 空格 ， 补 到 12 
2. 常量 

常量 是 其 值 不 可 变化 的 量 。 常 量 是 相对 变量 而 言 的， 变量 可 以 重新 赋值 ， 而 常量 是 固定 
不 变 的 值 。SAS 中 定义 的 常量 与 其 他 语言 中 定义 的 常量 基本 相同 。 

SAS 中 经 常用 的 常量 类 型 有 3 种 : 字符 型 常量 、 数 值 型 常量 和 日 期 型 常量 ， 十 六 进 制 常 
量 不 经 常用 。 

(D 字符 型 常量 

1) 一 般 字符 常量 用 单 引 号 或 双 引 号 括 起 来 都 可 以 ， 效 果 一 样 。 

【 例 2.18】 常量 赋值 给 变量 。 


Er 


data cl; 

cl 一 ' 跟 案例 学 SAS';，/* 常 量 用 单 引号 括 起 来 */ 
cl="what do yousay?"; 。 放 常 量 用 双 引 号 括 起 来 */ 
run; 

【程序 解读 】 数据 步 中 的 clz 变量 用 单 引 号 括 起 字符 串 ，cl 变量 用 双 引 号 括 起 字符 串 ， 对 
比 输出 信息 可 以 看 到 两 种 方式 都 可 以 处 理 字符 串 ， 效 果 一 样 。 

2) 对 于 字符 常量 中 包含 特殊 字符 的 常量 对 单 引 号 和 双 引 号 的 使 用 有 要 求 。 如 果 字 符 常量 
中 包含 单 引 号 外 面 就 用 双 引 号 括 起 来 ， 如 果 字 符 常 量 中 包含 双 引 号 外 面 就 用 单 引号 括 起 来 。 
【 例 2.19】 包含 单 引号 和 双 引 号 的 两 个 常量 赋值 给 变量 。 
data yk; 
sstr-"Tom's"; — /*i rp e HRS, SAARA S dolo / 
dstr=' 学 习 者 "灵活 "体会 应 用 案例 学 习 方法 ;，/* 常 量 中 包含 双 引 号 ， 外 面 用 单 引号 插 起 来 */ 
run; 

【程序 解读 】 数据 步 中 的 sstr 变量 中 的 赋值 字符 串 中 包含 单 引 号 ， 要 使 单 引号 包含 在 字 
符 串 中 ， 外 面 用 双 引 号 括 起 来 ; dstr 变量 字符 串 赋 值 中 包含 双 引 号 ， 要 使 双 引 号 包含 在 字符 
串 中 ， 外 面 用 单 引 号 括 起 来 。 

(2) 数值 型 常量 

数值 型 常量 就 是 类 型 为 数值 的 常量 。 如 果 数 值 型 常量 大 于 10E32-1， 必 须 用 科学 计数 法 
表示 。 

【 例 2.20】 数值 型 常量 赋值 给 变量 。 

data cl; 
x-78;  /# 数 值 型 常量 赋值 给 变量 x*/ 

y=-121; 必 负 数值 型 常量 赋值 给 变量 y*/ 

z--39; ”人 # 正 数值 型 常量 赋值 给 变量 z*/ 

k-2E-3; ” 必 科 学 计数 法 数值 型 常量 赋值 给 变量 k*/ 


run; 


T 
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【程序 解读 】 数值 常量 直接 赋值 给 变量 ， 变 量 不 需要 定义 。 
G) 日 期 型 常量 


日 期 型 常量 包括 日 期 (date) 、 时 间 (time〉 和 日 期 时 间 Cdatetime? 3 种 类 型 。 这 3 种 类 
型 的 常量 都 要 用 单 引号 或 双 引 号 括 起 来 。 如 果 是 日 期 型 的 常量 ,后面 加 字母 d; 如 果 是 时 间 型 


的 常量 ， 后 面 加 字母 t 如 果 是 日 期 时 间 型 的 常量 ， 后 面 加 字母 dt。 


【 例 2.21】 日 期 、 时 间 和 日 期 时 间 类 型 的 3 个 常量 分 别 赋值 给 变量 。 


data dttime; 
cdate-"3mar2012"d; 人 # 日 期 型 常量 赋值 给 变量 cdate*/ 
ctime-'8:30't; /#* 时 间 型 常量 赋值 给 变量 ctime*/ 


cdatetime-'6apr2012:8:18:30pm'dt;; 。 /* 日 期 时 间 型 常量 赋值 给 变量 edatetime*/ 


run; 
proc print;* 调 用 打印 过 程 打 印 输出 显示 信息 到 输出 窗口 */ 
format cdate yymmdd10. ctime timel0. cdatetime datetime22.; 
族 定 义 时间 的 输出 格式 */ 


run; 


【程序 解读 】 对 于 日 期 、 时 间 和 日 期 时 间 类 型 的 值 ， 赋 值 数 据 带 标志 符号 。 本 实例 中 的 
cdate 变量 为 日 期 型 ， 后 面 加 d (date) 表示 为 日 期 类 型 ，ctime 变量 为 时 间 型 ， 后 面 赋值 数据 
加 t (time ) 表示 为 时 间 类 型 数据 ; cdatetime 变量 为 日 期 时 间 型 ， 赋 值 数 据 后 面 加 dt (datetime) 


表示 日 期 时 间 类 型 。 
输出 窗口 显示 结果 ， 如 图 2-1 所 示 。 


Bh- (无 标题 ) 


Dbs cdate ct ime cdatet ime 


1 2012-03-03 8:30:00 06APR2012:20:18:30 


图 2-1 日 期 时 间 常 量 赋值 给 变量 的 输出 显示 窗口 


(4) 十 六 进 制 常量 


上 六 进 制 常量 是 计算 机 计数 法 中 以 十 六 进 制 计数 的 一 种 方式 ， 由 偶数 个 数组 成 。 它 是 数 


这 是 十 六 进 制 的 标志 ， 如 '1F'X。 
2.2.2 ”条件 选择 语句 与 循环 语句 


对 于 编程 语言 而 言 每 一 种 语言 都 有 条 件 选择 语句 和 循环 语句 ，SAS 编程 语 记 


SAS 通过 SAS 语言 对 数据 进行 处 理 ， 生 成 有 效 合理 的 数据 集 ， 便 了 


数据 挖掘 和 模型 开发 ， 而 生成 数据 集 质 量 的 差异 关键 在 于 处 理 数 据 。 


值 型 常量 的 另 一 种 进 制 的 特殊 计数 方式 。 十 六 进 制 数 用 单 引 号 括 起 来 ， 外 面 加 一 个 X 字母 ， 


言 也 不 例外 。 
其 他 模块 用 来 进行 分 析 、 
数据 步 中 通过 选择 语句 、 


循环 语句 、 内 部 函数 以 及 其 他 控制 语句 来 处 理 数据 集 。 其 他 语言 的 选择 语句 和 循环 语句 与 SAS 


语言 的 选择 语句 和 循环 语句 差不多 。 
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1. 选择 控制 语句 

(1) IF 语句 

语法 格式 : IF 条 件 表达 式 THEN 执行 语句 ; 

<ELSE 执行 语句 ;> 

【语法 解读 】 

IF: 选择 语句 关键 字 。 

条 件 表达 式 : 可 以 取 比 较 运算 符号 组 成 的 语句 或 逻辑 运算 符号 组 成 的 语句 。 

THEN: 选择 语句 关键 字 ， 若 条 件 表达 式 的 条 件 成 立 则 执行 THEN 语句 后 面 的 语句 。 

«ELSE 执行 语句 ;>: 可 选项 WR IF 语句 条 件 不 成 立 ， 有 ELSE 语句 就 执行 ELSE 语句 
后 面 的 语句 。 
【 例 2.22】 IF 语句 案例 应 用 : 根据 信用 卡 数据 查找 出 各 类 卡 的 信息 ， 并 打印 输出 C 类 信 
用 卡 的 信息 。 


data — custer; 


input id $ level $ amount 5. (à; 
label id=' 卡 编号 ' level=' 级 别 ”amount=' 信 用 额度 '; 
cards; 
1001 A 20000 
1002 B 3000 
103 C 5000 
105 A 90000 
106 A 70000 
107 A 50000 
108 C 2000 


data atype  btype ctype; 
set — custer; 
if level-'A' then output atype;  /*A 类 卡 输出 到 数据 集 atype*/ 

else if level='B' then output btype; /*B 类 卡 输出 到 数据 集 btype*/ 
else output. ctype; /*C 类 卡 输出 到 数据 集 ctype*/ 
run; 
proc print data=ctype label; /* 打 印 输 出 C 类 卡 ,这 里 要 显示 标签 内 容 要 加 label 参数 */ 
title "c 类 信用 卡 额度 "; 


run; 
【程序 解读 】 


1) IF 语句 根据 比较 运算 符号 组 成 的 语句 判断 ， 若 条 件 level='A' 成 立 ， 则 执行 THEN 语 
句 ， 把 符合 条 件 的 数据 通过 OUTPUT 语句 输出 到 数据 集 atype 保存 。 

2) ELSE IF 语句 对 比较 运算 符号 组 成 的 语句 进行 判断 ， 若 条 件 leve” B'A, MIRT 
THEN 语句 ， 把 符合 条 件 的 数据 通过 OUTPUT 语句 输出 到 数据 集 btype。 

3) 对 于 正 语句 与 ELSE IF 语句 都 不 成 立 的， 执行 ELSE 语句 ， 通 过 OUTPUT 语句 把 数 
据 输出 到 ctype 数据 集中 。 

输出 窗口 显示 输出 结果 ， 如 图 2-2 所 示 。 
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标题 ) 
言 用 卡 额度 2012F a 


SR») ”信用 额度 


103 C 
108 C 


图 2-2 C 类 信用 卡 输出 显示 窗 


(2) IF 条件 表达 式 语 名 
语法 格式 : IF 比较 运算 符号 组 成 的 语句 。 
【语法 解读 】 比较 运算 符号 组 成 的 语句 : 比较 条 件 判断 语句 。 
功能 : 对 数据 集 进 行 过 滤 。 
【 例 2.23】 IF 条 件 表 件 表达 式 语句 应 用 ， 从 数据 集 取 3 条 记录 。 
程序 如 下 : 

libname jx  'dNx; /* 定 义 逻 辑 库 ， 指 向 物理 路 径 为 d:\jx*/ 

data jx.credcard; 

input id $ level $ amount 5. (à; 


cards; 

1001 A 30000 

1002 B 4000 

1003 C 2000 

1005 A 80000 

1006 A 90000 

1007 A 60000 

1008 C 7000 

data  filter3; 
set —jx.credcard; 
if N <4; /# 从 数据 集 取 3 条 记录 */ 
run; 
【程序 解读 】 对 SET 语句 中 的 数据 集 credcard 进行 处 理 ， 通 过 IF 语句 引入 SAS 系统 内 
部 变量 N_。 该 变量 值 为 数据 步 中 读 取 记 录 条 数 的 值 ， 通 过 小 于 比较 运算 符号 与 4 比较 ， 如 果 
_N <4 成 立 就 从 数据 集 creditcard 取出 符合 条 件 的 数据 ， 存 储 到 数据 集 filter3 中 。 
(3) SELECT 语句 
语法 格式 : SELECT < 查询 表达 式 >:; 
WHEN (条 件 表 达 式 ) 执行 语句 ; 
<...WHEN (条 件 表 达 式 ) 执行 语句 ; 
«OTHERWISE 执行 语句 >; 


【语法 解读 】 
SELECT: 语句 关键 字 。 
查询 表达 式 : 可 选 语句 ， 一 般 为 数据 集中 的 一 个 变量 。 省 略 此 项 时 ， 查 询 条 件 在 WHEN 
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语句 中 写 明 。 

WHEN: 语句 关键 字 。 

OTHERWISE: 可 选 语句 ， 在 上 面条 件 都 不 成 立时 执行 OTHERWISE 语句 中 的 语句 。 

【 例 2.24】 例 2.22 Hl IF 语句 实现 的 程序 可 以 改造 成 用 SELECT 语句 实现 ， 两 个 程序 实 
现 的 功能 相同 。 

程序 如 下 : 

libname jx 'd:yjx';/* 定 义 逻 辑 库 ， 指 向 物理 路 径 为 d:\jx*/ 
data jx.credcard; 


input id $ level $ amount 5. @; 
cards; 
1001 A 30000 
1002 B 4000 
1003 C 2000 
1005 A 80000 
1006 A 90000 
1007 A 60000 
1008 C 7000 


data atype btype ctype; 
set jx.credcard; 
select (level); —/**J level 字段 选择 查询 */ 
when (A') output atype; /*R AFE wor. NAA t $8] atype 数据 */ 
when ('B) output btype;  /*ZKfT- gk vr ly d$] btype 数据 */ 
otherwise output ctype; ”人 # 上 面条 件 都 不 成 立 则 输出 到 ctype 数据 */ 


end; 


run; 


【程序 解读 】 SELECT 语句 中 查询 level 变量 ， 与 WHEN 语句 中 的 值 比较 判断 ， 如 果 符 
合 条 件 ， 就 执行 WHEN 语句 中 的 语句 ;否则 执行 OTHERWISE 语句 中 的 语句 。 
【 例 2.25】 SELECT 语句 对 数据 步 中 的 变量 处 理应 用 ,根据 条 件 把 变量 zone 的 内 容 修 改 
成 所 对 应 的 城市 。 通 过 SELECT 语句 ， 用 以 下 两 种 写法 实现 。 
程序 1: 
data zonetocity; 
input zone $ address $ @@; 


cards; 
100070 丰台 


[xj 


272195 微 山 县 200000 北京 


data changezone; 
set — zonetocity; 
select; — /*J5 £g f*/ 
when (zone-100070') zone= dU xt; /x* 条 件 语 句 写 在 when 语句 中 , 若 成 立 执行 zone=' 北 京 */ 
when (zone='020) ”zone=" 山 东 '; /* 条 件 若 成 立 执 行 zone= 山东 '#/ 
otherwise ”zone=' 其 他 省 份 '; /# 上 面条 件 都 不 成 立 执 行 zone=' 其 他 省 份 */ 


end; 
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run; 
程序 2: 


data changezone2; 
set — zonetocity; 


select (zone); 。 /* 无 查询 条 件 */ 


when (100070) ”zone=' 北 京 '” /* 条 件 语 句 写 在 when 语句 中 , 若 成 立 执 行 zone=' 北 京 */ 
when (020) ”zone=' 山 东 '; /条 件 若 成 立 执行 zone=' 山 东 */ 
otherwise ”zone=' 其 他 省 份 '” ”上 面条 件 都 不 成 立 执 行 zone=' 其 他 省 份 */ 
end; 


run; 


【提示 】 这 两 种 SELECT 语句 虽然 写法 不 同 ， 但 可 以 实现 同样 的 功能 。 
2. 循环 控制 语句 
(1) DO WHILE 循环 语句 
语法 格式 : DO WHILE (条 件 表 达 式 ); 
执行 的 SAS 语句 ; 
END; 
[502.26] Rx 自动 加 2 的 和 。 


data autoplus; 


x=0; 

do while (x<11); 。 * 条 件 成 立 执 行 下 面 的 语句 */ 
X=X+2; 
end; 


put x=; /* 输 出 到 日 志 窗 口 */ 


run; 


【程序 解读 】 循环 条 件 是 x<11， 当 x=10 时 ，x=x+2=12， 此 时 返回 到 循环 条 件 判 断 ， 己 
经 不 符合 条 件 ， 循 环 结束 。 
日 志 中 显示 结果 : x=12， 如 图 2-3 所 示 。 


(无 标题 ) f- olx] 
578 DATA autoplus; ^ 
573 x=0; " = 
do mue (G0): Al 条 件 成 立 执行 下 面 的 语句 7 
x-xt2; 

end; 


HE wESJIsES Im EM 


个 观测 和 1 个 变量 。 
加 >) : 


s pA] 让 全 ”所 用 时 间 C gente 
PII 时 间 fn Pb 


DS 


2-3 DO WHILE 循环 日 志 输 出 显示 窗口 


(2) DO UNTIL 循环 语句 
语法 格式 :DO UNTIL (条 件 语句 ) 
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执行 的 SAS 语句 ; 

END; 
【注意 】 DOUNTIL 循环 语句 ， 先 执行 后 判断 条 件 ， 条 件 成 立 输出 结果 。 
【 例 2.27】 DO UNTIL 循环 语句 应 用 。 
程序 如 下 : 


data un; 


X=8; 
do until (x-10y /# 先 执行 后 判断 ， 条 件 成 立 输出 结果 并 
X=X+2; 
end; 
put x=;  /*u 
run; 
日 志 结果 显示 x-10. 
(3) DO TO 循环 语句 
【语法 格式 】 DO 开始 变量 值 TO 终止 值 <BY 每 次 增加 量 > ; 
【语法 解读 】 BY 每 次 增加 量 : BY 语句 中 指定 循环 增 量 ， 默 认为 1， 省 略 此 项 时 取 默 认 
1 递增 。 

【 例 2.28】 DO TO 循环 语句 应 用 ， 每 次 x 值 加 3。 


LL 
\ 


data increase; 
do i=l to 9 by 3 ; /* 每 次 i 递增 3 个 值 */ 
X=1; 
end; 
put x=; /x* 输 出 结果 到 日 志 窗 口 */ 
run; 


日 志 结 果 显 示 y=7。 
22.3 BEER EZ 


1. 操作 符 

操作 符 运算 是 每 种 编程 语言 基本 都 具有 的 。SAS 语言 的 操作 符 包括 算术 运算 符 、 比 较 运 
算 符 、 巡 辑 运 算 符 和 字符 串 连接 符 等 四 大 类 。 

(1) 算术 运算 符 

算术 运算 符号 实现 对 数值 类 型 的 数据 进行 算术 计算 。 常 用 算术 运算 符号 如 表 2-1 所 示 。 


p 


表 2-1 常用 算术 运算 符号 


算术 运算 符号 功 能 
n 加 法 运算 
M 减法 运算 
乘法 运算 
本 乘 方 运算 
/ 除法 运算 
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【 例 2.29】 求 2 的 三 次 过 ， 并 求 出 4 除 以 2 的 值 。 
data czf, 
y-2**3; /# 通 过 乘 方 运算 符 实现 了 2 的 三 次 寡头 
k=4/2;/* 通 过 除法 运算 符 实现 了 4 除 以 2 的 运算 */ 
run; 
(2) 比较 运算 符 
比较 运算 符号 实现 比较 运算 。 常 用 比较 运算 符号 如 表 2-2 所 示 。 


表 2-2 常用 比较 运算 符号 


比较 运算 符号 
=R EQ 相等 条 件 判 断 
RNE 不 相等 条 件 判断 
> 或 GT 大 于 条 件 判断 
RIT 小 于 条 件 判断 
大 于 等 于 条 件 判 断 
< 或 IE 小 于 等 于 条 件 判断 


【 例 2.30】 比较 运算 符号 “>=” 应 用 ， 根 据 信用 卡 信用 积分 查找 出 信用 积分 小 于 300 的 
客户 信息 。 


data cred score; 
input id $ name $ sex $ score @@; 
cards; 
1001 张小红 F 3001002 高 峰 名 M 7001003 刘 心 洪 FE 900 1005 赵 用 武 M 200 


data great300  littel300; 

set cred score; 

if score»—300 then output great300; 人 # 信 用 积分 大 于 或 等 于 300 Hin th SUUS 
else output littel300; /# 信 用 积分 小 于 300 的 输出 到 数据 集 Tittel300*/ 


great300*/ 


mt 


run; 
proc print data=littel300; /# 打 印信 用 积分 小 于 300 分 的 客户 信息 */ 
tile "信用 积分 小 于 300 分 的 客户 "， /x* 打 印 输 出 标题 */ 


run; 


【程序 解读 】 正 语句 中 对 成 绩 变量 score 通过 比较 运算 符号 >= 把 成 绩 大 于 或 等 于 300 分 
的 数据 信息 输出 到 数据 集 great300, 不 及 格 的 执行 ELSE OUTPUT 语句 输出 到 数据 集 littel300。 


输出 窗口 显示 信用 积分 littel1300 的 数据 集 信 息 ， 输 出 结果 如 图 2-4 所 示 。 
回 葵 出 - (无 标题 ) DBR) 


RHiBUBUMT300OBUEP 2012F04H 06H ^ 


1005 AE 


图 2-4 信息 积分 小 于 300 分 的 客户 
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(30 逻辑 运算 符 
逻辑 运算 符号 实现 逻辑 运算 ， 计 算 结果 只 有 两 种 值 : 真 或 假 。 如 果 逻 辑 值 为 真 ， 返 回 计 
算 结果 为 1; 否则 为 假 返回 计算 结果 为 0。 常用 逻辑 运算 符号 如 表 2-3 所 示 。 


表 2-3 常用 逻辑 运算 符号 


逻辑 运算 符号 Xj 能 
AND 或 & 且 ， 若 判断 条 件 中 两 个 条 件 都 为 真 ， 则 值 为 1， 否则 为 0 
OR 或 | 或 ， 若 判断 条 件 中 一 个 为 真 或 都 为 真 ， 则 值 为 1， 否 则 为 0 
1) AND 或 &。 


【 例 2.31 】 x»y and y>0， 如 果 x>y 为 真 ， y>0 为 真 ， 则 结果 为 1， 否则 有 一 个 为 假 的 结 
果 就 为 0。 

2) | 或 OR 

[52.32] x>yly>0， 如 果 两 个 关系 中 一 个 或 两 个 都 为 真 ， 则 结果 为 1; 全 为 假 则 结果 为 0。 

(D. 字符 申 连接 符 

字符 串 连接 符号 实现 字符 串 的 拼接 或 变量 与 变量 的 拼接 ， 组 合成 新 变量 对 应 的 内 容 。 

功能 ， 连 接 两 个 或 多 个 字符 十 。 

常用 字符 串 连接 符 :| 或 !! 

【 例 2.33】 字符 连接 运用 。 


data cstr; 
str1 7 what'; 
str2— do you say"; 
cstrl-str1 |str2; 人/# 用 | 实现 字符 串 拼 接连 接 组 合成 新 串 cstr1*/ 
cstr2=str1 !!str2; /用 忆 实 现 字 符 串 连接 组 合成 新 串 cstr2*/ 
run; 


proc print data-cstr; 


【程序 解读 】 数据 步 中 cstrl 变量 为 字符 串 变 量 strl 与 str2 通过 字符 串 连接 符号 “||” 实 
现 字 符 变量 的 拼接 后 赋值 的 字符 串 ，cstr2 变量 为 字符 串 变 量 strl 与 str2 通过 字符 串 连接 符号 
“11” 实 现 字 符 变 量 的 拼接 后 赋值 的 字符 串 。 对 比 这 两 个 字符 串 连 接 符号 ， 可 以 看 出 功能 一 样 
只 是 写法 不 同 。 

输出 窗口 显示 输出 结果 ， 如 图 2-5 所 示 。 


中 


» 


Bài - (EFM) 


stri str? 


what do you say! what do you say! what do you say! 


| > 


E 
EE 
k 

5l 
RE 
O 


图 2-5 字符 串 连 接 信息 划 
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prt 


DE 法 解读 


个 变量 


%let : 


S x 


EKF. 


宏 变 量 


【注意 】 


一 个 宏 变 量 


ET: 定义 的 变量 
= 赋值 ， 可 选项 ， 可 以 赋值 ， 也 可 以 通过 
语句 中 如 果 定义 多 个 宏 变 量 
【 例 2.34】 定义 一 个 不 赋值 宏 变量 


%let v defin; 


[512.35] 定义 一 个 赋值 宏 变 


Volet v dir-'d:yx' 


t4. D 


页 符合 


的 意义 一 样 ， 在 程序 的 其 他 地 方 可 以 引用 它 。 
%let 宏 变 量 名 <= 赋 值 >; 


变量 名 定义 规则 。 
他 语句 赋值 。 


=i 
FH 


2.24 格式 修饰 符 与 指针 控制 
1， 格 式 修饰 符 


间 用 空格 分 隔 。 


Es 宏 变量 2 


t& v defin. 


v_dir， 赋 值 为 指向 的 路 径 值 “d:jx” 


在 进行 实际 SAS 应 用 开发 时 ， 在 数据 步 中 对 数据 的 处 理 中 会 遇 到 一 些 数据 文件 或 数据 块 
中 数据 包含 特殊 字符 ,对 这 样 的 数据 在 建立 数据 集 读 取 数 据 时 要 在 INPUT 语句 中 定义 变量 的 
类 型 前 加 格式 修饰 符 ， 这 样 才能 读 取 这 类 数据 文件 或 数据 块 数据 。 

常见 的 格式 修饰 符号 有 以 下 几 种 。 

D: (冒号 ) 格式 修饰 符 : 从 非 空格 开始 读 取 变量 所 对 应 的 数据 ， 直 到 满足 以 下 任何 一 
种 情况 。 


e 过 到 下 一 个 空格 列 。 


e 对 应 变量 


所 定义 的 长 度 已 经 读 满 。 


e 数据 行 结束 。 


【提示 】 对 
于 字段 列 对 应 的 数据 长 度 大 小 不 定 的 加 冒号 修饰 


于 上 面 的 3 种 情况 只 要 满足 


H 


的 一 种 情况 该 字段 列 读 取 的 数据 就 结束 。 对 


Zr 


符号 ， 可 以 正确 读 取 数 据 ， 防 止 错 读 列 。 


【 例 2.36】 冒号 格式 修饰 符 应 用 : 通信 地 址 最 长 20 个 字符 ， 通 过 格式 修饰 符 正 确 读 取 下 
面 的 数据 。 
data address; 
input name $ tx address :$20. zone $ @; 
/*tx address 列 加 了 冒号 格式 修饰 符 ， 防 止 长 度 不 够 从 下 一 列 读 取 */ 
cards; 
张 华 中 国 北 京 市 丰台 区 100070 
刘 小 峰 北京 西城 区 100000 
高 兴 于 中 国 山东 272195 
run; 
proc print; 
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【程序 解读 】 INPUT 语句 中 定义 的 变量 tx address 所 对 应 的 变量 类 型 前 加 冒号 ， 告 诉 此 
变量 如 果 长 度 不 够 遇 到 空格 就 结束 读 取 ; 如 果 超 过 此 长 度 也 结束 ， 数 据 行 结束 也 结束 读 取 。 
对 于 上 面 的 程序 ， 如 果 变 量 x address 去 掉 冒 号 格式 修饰 符 ， 数 据 读 取 就 会 错位 。 

输出 窗口 显示 输出 结果 ， 如 图 2-6 所 示 。 

Hà 输出 - “无 标题 ) BAE 


100070 
100000 


272195 


图 2-6 冒号 修饰 tx_address 读 取 数 据 输出 显示 窗口 


B 


2) 及 格式 修饰 符 : 修饰 所 读 取 为 字符 型 的 列 数据 中 含有 一 个 或 一 个 以 上 空格 的 字符 数据 。 
SAS 语言 中 默认 空格 为 字段 分 隔 符 ， 如 果 想 保留 空格 ， 必 须 在 定义 的 字符 列 加 格式 修饰 符 ， 
而 它 后 面 列 的 数据 必须 以 两 个 或 两 个 以 上 的 空格 分 割 。 

【 例 2.37】 & 符 号 应 用 : 读 取 通信 地 址 含 空格 的 数据 。 


data address blank; 
input name $ tx address &:$20. zone $6. @; 
/*tx address 列 加 了 冒号 格式 修饰 符 ， 防 止 长 度 不 够 从 下 一 列 读 取 */ 


cards; 


张 华 中 国 北京 市 丰台 区 100070 


刘 小 峰 北京 市 西城 区 100000 
高 兴 于 中 国 山东 272195 


E 


run; 
proc print; 
run; 


输出 窗口 显示 输出 结果 ， 如 图 2-7 Bras. 


Ej 输出 - (无 标题 ) 


Übs name ix address 


中 国 北京 市 丰台 区 — 100070 
田 城 区 100000 


张 华 
刘 小 峰 — 北京 市 
高 兴 于 ”中 国 山东 272195 


Lil 


图 2-7 取 符号 修饰 address 读 取 字 符 列 数据 输出 显示 窗 


3) ~ 格式 修饰 符 : 修饰 所 读 取 对 应 列 包 含 单 引 号 、 双 引号 或 分 隔 符 的 字符 列 。 
【 例 2.38】 ~ 符号 应 用 : 通信 地 址 字段 包含 单 引 号 或 双 引 号 ， 或 分 隔 符号 的 字符 数据 。 


data ts; 
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input name $ tx address ~&:$26. zone $6. (à; 
/*address 列 加 了 ~ 读 取 包含 单 引号 或 双 引 号 ， 或 分 隔 符 号 的 字符 数据 */ 
cards; 
张 华 "中 国 ,北京 市 , 丰台 区 " 100070 
董 小 青 "北京 东城 区 " 100000 
刘 小 峰 "山东 省 济南 市 " 270000 
高 明明 “' 北 京 市 ,西城 区 ' 100000 
张 东 杨 ' 四 川 成 都 ' 345678 
王 霞 会 ”江苏 , 南京 ”123456 


H 
run; 
proc print; 


run; 


【程序 解读 】 INPUT 语句 中 定义 的 变量 tx address 中 加 ~ 格式 修饰 符号 ， 因 为 此 列 对 应 数 
据 有 单 引 号 和 双 引 号 。 
输出 窗口 显示 输出 结果 ， 如 图 2-8 所 示 。 


Bih - 【无 标题 ) 
tx_address zone ^ 


E ,北京 市 ,丰台 区 ”  — 100070 


m 东城 区 100000 

省 济南 270000 
i 100000 
345678 
123456 


D 


2-8 ~ (Bhif tx address 读 取 字 符 列 数据 输出 显示 窗口 


2. 指针 控制 

SAS 语言 有 自己 的 指针 控制 , SAS 在 读 取 数据 时 是 通过 SAS 的 指针 控制 符 来 控制 读 取 数 
据 的 。 指 针 控 制 符 分 为 行 指针 和 列 指针 两 种 ， 下 面 分 别 对 这 两 种 指针 控制 符 在 数据 处 理 中 的 
应 用 给 予 详细 讲解 。 

(1) 列 指针 控制 符 模式 

语法 格式 : @n。 

【语法 解读 】 

@: 列 指针 标志 符号 。 

n: 整数 类 型 ， 指 明 列 的 开始 位 置 ， 是 对 应 变量 的 数据 开始 列 位 置 。 

【 例 2.39】 列 指针 控制 符 应 用 ， 读 取 数 据 文件 tx.txt， 建 立 数据 集 txl。 


%let dir-'d:jxwx.txt; /外 部 文件 路 径 */ 
filename txsj "(&dir)"; 15 VA TEE AR AA CI 
data txl; 
infile txsj ; — /*iXcfb*/ 
input @1 qh $4. AFRE B */ 
(25 tx address $17. 
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(22  youbian 


run; 


【程序 解读 】 对 外 部 文 伯 


变量 qh 从 第 一 列 开 始 读 取 数 据 ，$4. 指 明 变 


束 。 


其 他 变量 定义 形式 与 变量 qh 类 似 。 
(2) 列 控 制 符号 模式 
语法 格式 : nl-n2. 
【语法 解读 】 

nl: 列 开始 位 置 ， 了 
n2: JARMA., I 


FE 整数 值 。 
FE 整数 值 。 


F 的 读 取 通 过 INPUT 语句 定义 数 和 


$4. 


居 的 开始 位 置 和 变量 ，@1 表示 


长 度 为 4， 读 取 4 个 字符 就 结 


量 符 类 型 ， 


qh 为 字 


Tit 


【 例 2.40] 对 例 2.39 进行 改造 ， 通 过 列 控制 符号 应 用 ， 读 取 数 据 文件 tx.txt， 建 立 数 据 
集 txsj。 
%let — dir-'dijxvx.txt5 — /*FSEOCTERRAE*/ 
filename wbsj "(&l;  /* 给 路 径 起 逻辑 名 字 */ 
data txsj; 
infile — wbsj; /# 读 文件 次 
input qh $1-4 AIÈR BU 
tx address $ 5-21 
youbian $ 22-25 
run; 


【 程序 解读 】 INPUT 语句 中 定义 的 变量 qh 的 数据 类 型 为 字 
的 第 一 列 开 始 ， 到 第 四 列 结束 。 


对 应 的 数据 从 数据 文件 
qh 类 似 。 


【提示 】 对 同一 问题 通过 不 同 的 方法 解决 ， 达 到 同 检 
后 结果 相同 


符号 运行 


不 同 的 列 控制 符号 读 取 数 据 ， 程 序 
(3) 单个 @ 符 号 应 用 


符 类 型 ，1-4 指明 此 变量 


他 变量 定义 形式 和 定义 变量 


«Anm 


的 结果 。 对 相同 数据 文件 通过 两 种 
种 方式 根据 个 人 的 喜好 。 


H 


LPS 


体 选 择 明 


(à: INPUT 语句 中 单个 “@” 行 控 
行 ， 当 遇 到 下 个 INPUT 


时 行 指针 才 移动 。 
【提示 】 对 数据 块 或 数据 文件 进行 过 滤 时 经 常 


证 符号， 控制 SAS 行 位 置 的 指针 ， 让 指针 控制 在 当前 


到 该 模式 。 


【 例 2.41】 单个 @ 符 号 应 用 ， 读 取 dNxvcredtype 数据 文件 ， 取 出 B 类 客户 数据 ， 建 立 数 
据 集 btype。 
Volet dir= 'd: jx credtype.txt'; 
filename wbsj "(&dir)"; 
libname cs)  'd:7jx' 
data csj.btype; 
infile — wbsj; 
input (320 card type $1. 
(à); PATBBITI S, EEEE KRT, ERAT if RAA E] / 
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if card type=B' thendo;  /*Hicard type='B' 类 型 的 卡 的 条 件 */ 
input (Ql credt bh $3. 
(Q4 card num $16. 


output csj.btype; 


end; 
run; 
proc print data=csj.btype noobs; /# 打 印 输出 btyep 数据 集 ， 输 出 窗口 不 显示 标号 */ 
run; 


【程序 解读 】 语句 input @20 card type $1. @; 先 读 取 card. type 变量 的 数据 ， 然 后 通 
过 if card_type ='B' 语 句 判 断 ， 符 合 条 件 的 就 执行 DO END 语句 块 中 input 语句 中 定义 的 
变量 

输出 窗口 显示 输出 结果 ， 如 图 2-9 所 示 。 


DES 


SAS 


credt_bh card num 


202 7345678387654322 
305 6976543219876547 


»» 


7 


2-9 读 取 B 类 客户 信息 输出 显示 窗 


(4) @@ 符 号 控制 读 取 

INPUT 语句 中 在 读 取 外 部 数据 文件 或 数据 块 中 的 数据 时 ， 若 多 条 观测 记录 写 在 一 行 ， 为 
控制 列 中 每 个 列 对 应 数据 到 相应 的 列 变量 ， 需 要 通过 “@@” 行 控制 符 起 到 按 记 录 条 数 分 割 
数据 的 作用 ， 并 按 对 应 列 读 取 数 据 。 

【 例 2.42】 @@ 符 号 读 取 控 制 应 用 ， 根 据 客户 信息 数据 建立 数据 集 cust inf. 


data cust inf, 
length address $20.;/* 长 度 超过 8 个 字 节 ， 需 要 length 语句 先 定义 变量 */ 
input name $ address @@; /x*@@ 行 控制 符号 读 取 多 条 记录 在 一 行 的 记录 */ 
label ”name=' 姓 名 ' address=' 通 信 地 址 '; 


cards; 
高 峰 北京 市 丰台 区 章 玉 华 河北 唐山 董 小 青 江苏 南京 


, 


RUN; 
Proc print data-cust inf label; /*JJl label 显示 标签 信息 到 输出 窗口 */ 
var name address; /改变 输出 显示 顺序 对 


run; 
【程序 解读 】 cards 语句 中 的 数据 写 在 了 同一 行 ， 没 有 按 列 对 齐 书写 ， 通 过 @@ 行 控制 指 
针 按 input 语句 指定 的 变量 对 应 读 取 数 据 。 
输出 窗口 显示 输出 结果 ， 如 图 2-10 所 示 。 
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输出 - “无 标题 


通信 地 址 
北京 市 丰台 区 


河北 唐山 
江苏 南京 


lil 


图 2-10 行 控制 符 “@@” 信 息 输出 显示 窗口 


2.25 INPUT 语句 与 PUT 语句 
INPUT 语句 定义 变量 并 读 入 数据 ，PUT 语句 定义 变量 并 读 出 数据 ， 对 比 可 以 发 现 两 者 的 


1. INPUT 语 句 

SAS 语言 中 数据 步 的 建立 离 不 开 INPUT 语句 , 在 读 入 外 部 数据 文件 或 CARDS 语句 后 面 
的 数据 块 时 ， 通 过 INPUT 语句 定义 变量 、 变 量 长 度 以 及 变量 类 型 ， 并 把 对 应 的 数据 赋值 给 所 

INPUT 语句 的 作用 如 下 : 

1) 读 取 外 部 数据 文件 或 CARDS 语句 后 面 的 数据 块 。 

2) 定义 变量 、 指 定 变 量 长 度 以 及 定义 变量 类 型 。 

语法 格式 : INPUT < 变量 名 1 <$>w.d> ”< 变量 名 2 <$>w.d>...; 


【语法 解读 】 
INPUT: 定义 变量 关键 字 。INPUT 语句 中 定义 变量 ， 定 义 变量 的 对 应 类 型 ， 并 可 以 指定 
读 取 的 列 格式 。 


变量 名 : 用 户 定义 的 变量 名 。 注 意 ， 命 名 要 符合 SAS 命名 规则 。 

$: $ 可 选项 ， 定 义 的 变量 为 字符 型 的 就 加 “$” 符 号 ， 告 诉 SAS 该 变量 为 字符 类 型 。 

wd: w 定义 变量 的 总 长 度 ， 整 数 型 ， 如果 数 值 型 变量 有 小 数 ，d 指明 变量 的 小 数位 数 。 

【注意 】 变量 之 间 用 空格 分 隔 。 

INPUT 语句 中 对 变量 定义 有 四 种 定义 方式 。 

D INPUT 语句 中 只 是 列 出 变量 名 ， 变 量 之 间 以 空格 分 隔 。 对 于 字符 类 型 的 变量 加 一 个 
“$” 符 号 ， 字 符 类 型 长 度 取 默认 长 度 8 个 字符 。 数 值 类 型 的 只 写 出 变量 名 。 

例如 : INPUT name $ cred num ; 

优点 简单 。 

缺点 : 此 类 定义 方式 不 能 输入 带 空格 的 数据 。 输 入 的 数据 严格 按 变 量 对 应 的 数据 输入 ， 
字符 类 型 的 数据 最 多 8 个 字符 。 

2) INPUT 语句 中 对 定义 变量 用 列 格式 定义 对 应 的 数据 ， 变 量 名 后 用 正 整数 指明 变量 对 
应 的 数据 在 数据 行 对 应 的 列 开始 位 置 与 结束 位 置 。 字 符 类 型 的 变量 加 “$” 符 号 。 

例如 : INPUT car id $1-18 cred num 21-36 credit jf 19-20; 

优点 : 此 类 定义 方式 只 需要 标明 变量 对 应 的 数据 列 的 开始 位 置 和 结束 位 置 就 可 以 使 变 
量 读 取 到 对 应 的 数据 ;字符 类 型 的 变量 可 以 包含 空格 ;字符 类 型 的 数据 可 以 读 取 到 最 大 200 
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个 字符 。 


FEH 


缺点 : 变量 对 应 的 数据 输入 时 要 严格 按 
变量 对 应 列 数据 的 开始 位 置 和 结束 位 置 。 


3) INPUT 语句 中 对 定义 的 变量 名 后 面 直 


据 类 型 。 


名 数据 类 型 。 


照 列 格式 对 应 列 输入 ， 写 程序 时 需要 数 出 每 一 个 


接 定 义 输入 类 型 


列 如 : INPUT address 
优点 : 输入 的 数据 不 需要 2 
缺点 : 输入 的 数据 要 严格 按 列 对 齐 。 
4) INPUT 语句 中 对 定义 的 变量 通 


缺点 : 


(1) 列 变量 名 方式 读 取 数据 
【 例 2.43】 INPUT 语句 中 直接 列 出 变量 


例如 : INPUT @3 name $3. 


(8 score 4. 


^ 


Ubri: 可 以 控制 变量 对 应 数据 的 开始 
需要 把 变量 对 应 数据 列 的 开始 


过 绝对 指针 方式 读 入 输入 变量 对 应 的 数据 : @n 变量 


位 置 ， 控 制 灵 活 。 
位 置 计算 出 来 。 


为 帮助 读者 到 


EE INPUT 语句 定义 变量 的 方式 ， 


T 语句 的 定义 变量 方式 ， 通 过 案例 分 别 讲解 。 


*input 语句 后 面 定义 变量 ， 列 日 


data credit; 


input id $ name $ pj score 5.1; 


cards; 

1001 高 洪 伟 345.1 
1002 张 东 风 187.0 
1003 杨 小 飞 984.3 


E 


run; 


【程序 解读 】 数据 步 INPUT 语句 中 直接 定义 变量 


序 赋值 给 变量 。 


(2) 对 变量 名 用 列 格式 定义 


4 的 格式 ， 定 义 变量 的 长 度 和 数 


以 及 实际 


开发 中 如 何 根据 数据 书写 格式 选 


EXPE, cud credit. 
变量 名 和 变量 类 型 ; 


/*input 语句 后 面 定义 变量 和 变量 类 型 */ 


【 例 2.44】 读 取 外 部 数据 文件 dx wredtype.txt. 


* 对 变量 名 用 列 格式 读 取 ; 
%let dir= 'd:\x\credtype.txt'; 
filename wbsj "(&dir)"; 
libname csj  'd:\jx'; 


data csj.lgsdq; 
infile 
input 


& id. name 和 pj _ score， 数 据 块 按 变量 顺 
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card type $20 
run; 
【程序 解读 】 INPUT 语句 中 定义 的 变量 指定 了 列 的 开始 位 置 和 结束 位 置 ， 严 格 按照 数据 
对 应 列 读 取 。 
(3) 变量 名 后 面 直接 定义 输入 类 型 的 格式 
【 例 2.45】 对 例 2.44 进行 改造 ， 直 接 定义 变量 名 类 型 的 格式 读 入 外 部 数据 文件 ， 建 立 数 
据 集 。 


* 变 量 名 后 直接 定义 输入 类 型 的 格式 ; 
Volet dir= 'd: jx credtype.txt'; 
filename — wbsj "(&dir)"; 

libnaame csj  'd:x 


data csj.lgs; 
infile wbsj; 
input credt bh $3. 
card num $16. 
card type $1. 


run; 
【程序 解读 】 INPUT 语句 中 定义 的 变量 直接 定义 变量 类 型 和 长 度 ， 控 人 
(4) 绝对 指针 方式 读 入 输入 变量 
【 例 2.46】 对 例 2.44 进行 改造 ， 用 绝对 指针 方式 读 取 外 部 数据 文件 ， 建 立 数据 集 。 


* 绝 对 指针 方式 读 入 输入 变量 ; 
Volet dir='d:YJx\credtype.txt'; 
filename — wbsj "(&dir)"; 
libnaame csj  'd:x 


读 取 数据 。 


heu 


data csj.gs; 
infile — wbsj; 
input (gl credt bh $3. 
(Q4 card num $16. 
(220 card type $1. 
run; 


【程序 解读 】 INPUT 语句 中 通过 @ 指 针 定 义 每 一 个 变量 的 开始 位 置 ， 并 定义 变量 类 型 和 
长 度 。 

2. PUTZA 

PUT 语句 主要 用 来 输出 变量 信息 显示 到 指定 的 地 方 : 

1) 输出 到 SAS 系统 的 日 志 窗 口 。 

2) 输出 到 FILE 语句 指定 的 外 部 文件 。 

3) 输出 到 SAS 系统 的 OUTPUT 窗口 。 
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【提示 】 PUT 语句 后 面 的 定义 和 INPUT 语句 的 定义 变量 语句 相似 。 

语法 格式 : PUT < 变量 名 1 <$>w.d> ”< 变量 名 2 <$>w.d> <_ODS > <@|@@>; 

【语法 解读 】 

D PUT: 输出 控制 语句 关键 字 。PUT 语句 中 定义 变量 或 直接 写 变 量 名 ， 定 义 变量 对 应 的 
类 型 ， 并 可 以 指定 输出 的 列 格 式 。 

2) < ODS >: 可 选择 项 ， 对 应 用 file print ods 声明 的 变量 指定 此 选项 。 

3) <@|@@>: 控制 输出 指针 ， 可 以 控制 换行 。 

下 面 通过 几 个 案例 讲解 PUT 语句 的 作用 。 

【 例 2.47】 PUT 语句 输出 数据 集 gs 具有 的 变量 credt_bh 对 应 数据 到 


%let 


filename 


dir= 'd:\jx\credtype.txt'; 
"(&dir)"; 
'd:\jx'; 


wbsj 

libname csj 

data csj.gs; 
infile — wbsj; 

(Q1 credt bh $3. 

(Q4 card num $16. 


(220 card type $1. 


E 


input 


run; 

*PUT i£ 5)/i ti 25 Efe 80 H 58 
data _null_;/* 数 据 步 只 是 做 数据 处 
set csj.gs;/* 读 取 数 据 集 */ 

put credt_bh;/* 输 出 变量 credt_bh 
run; 


E 
Hs 


里 ， 数 据 集 命名 为 null ,这 是 特殊 的 数据 集 名 字 */ 


的 数据 到 


日 志和 


显示 */ 


【程序 解读 】 PUT 语句 中 直接 写 数据 变量 名 字 ， 把 变量 对 应 的 数据 显示 到 日 志 窗 口 。 
【 例 2.48】 对 例 2.47 进行 改造 ，PUT 语句 输出 数据 集 gs 具有 的 变量 credt_bh 对 应 的 数 
据 到 指定 的 外 部 文件 。 


* 绝 对 指针 方式 读 入 输入 变量 ; 


%let dir='d:YJx\filewrite.txt'; 
filename — wbsj "(&dir)"; 
libname csj  'd:\jx'; 
data csj.gs; 
infile — wbsj; 
input (gl credt bh — $3. 
(Q4 card num $16. 
(220 card type $1. 
run; 


* 输 出 数据 集 数据 到 外 部 文件 ; 


data — null ; 


file wbsj; /*file 语句 指定 要 写 入 的 外 部 数据 文件 ， 一 般 与 put 语句 一 起 使 | 


*/ 


set csj.gs;/# 读 取 数 据 集 头 
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put (Ql credt bh $3. 


run; 


【程序 解读 】 PUT 


通过 @ 指 针 控 
2.2.6 
Jm 


INFILE 语句 是 读 入 外 部 数据 文 从 
件 的 形式 存储 数据 
系统 外 部 数据 文 


Q4 "| 
@5 card num $16. 


@21 


IER 


lae fc 


(222 card type $1. 


fl 


SIRO 


语句 中 
数据 输出 到 文人 


INFILE 语 句 与 FILE 语 句 
INFILE JJ 


FILENAME 


] 来 指定 文 伯 
INFILE 读 取 外 部 文件 的 设置 


语法 格式 : INFILE 
【语法 解读 】 


“物理 


的 关键 


接 写 数据 集 变量 名 字 ， 把 变量 对 应 的 数据 输出 到 外 部 文件 ， 
F 的 列 开 始 位 置 。 


逻辑 或 逻辑 文件 名 


寿 句 。 实 际 开发 中 大 多 数 数据 都 是 以 外 部 数据 文 
的 。 数 据 步 的 建立 依靠 的 是 数据 ， 数 据 的 获取 需要 INFILE 语句 告诉 SAS 
牛 存储 在 什么 位 置 。INFILE 语句 有 
F 路 径 所 对 应 的 逻辑 名 ， 物 理 位 置 


时 和 FILENAME 语句 配合 使 用 。 
后 面 的 文件 路 径 。 


E 
p 


' «type» <options>; 


物理 逻辑 或 逻辑 位 置 名 : 指明 物理 文件 路 径 或 flename 语句 定义 的 逻辑 文件 名 。 


type: 指 


明文 件 类 型 ， 默 认 是 一 
可 以 取 的 类 型 有 DLI、HFS、PIPE、IDMS、ISAM、VSAM、VTOC 等 。 这 几 个 类 型 各 


> 


标准 类 型 的 外 部 文件 。 非 标准 文件 类 型 要 在 这 里 指定 ， 


自 对 应 


不 同 的 操作 系统 。HFS 对 应 UNIX 操作 系统 。MVS 对 应 z/OS 操作 系统 。 


options: 指明 主机 中 对 应 外 部 文件 的 选项 ， 文 伯 


读 取 时 经 常用 到 的 标准 选项 。 


对 于 文件 中 每 条 记录 长 度 不 定 ， 对 应 列 数 据 有 缺失 值 的 文件 ， 根 据 具体 文件 具体 分 析 。 


对 下 面 


几 个 参数 进行 设置 ， 来 控制 文 伯 


Fit. 


FLOWOVER: FLOW. OVER 这 两 个 单词 的 组 合 。FLOW 这 个 单词 翻译 成 中 文 是 流动 ， 
也 就 是 一 直流 动 下 去 ， 直 到 数据 文件 结束 。 这 是 SAS 的 默认 选项 ， 如 果 读 取 的 文件 中 不 指明 


选项 ， 默 认 的 就 是 FLOWOVER。 


BA 


I HE. 


列 对 应 的 数据 。SAS 是 先 把 数据 读 到 缓冲 区 。 
MISSOVER: 该 选项 是 对 缺失 数据 列 的 数据 处 理 。SAS 系统 在 读 取 数 据 行 时 ， 如 果 当 前 


数据 行 长 度 到 当前 列 没 有 达到 INPUT 语句 声明 


诉 SAS 在 读 取 数 据 外 部 文件 时 如 果 当 前 数据 行 记 录 长 
度 和 INPUT 语句 所 声明 的 列 对 应 数据 长 度 不 够 ， SAS 系统 就 从 下 一 行 记录 读 取 数 据 ,来 满足 


的 列 长 , SAS 系统 就 通过 这 个 参数 设置 来 告诉 


SAS 系统 ， 从 当前 列 开始 之 后 所 有 的 列 为 缺失 值 。 缺 失 值 SAS 默认 用 点 (.) 表示 。 不 从 下 一 


行 读 取 。 


TRUNCOVER: TRUNCATE 和 OVER 的 组 合 。TRUNCATE 翻译 成 中 文 


单词 就 可 以 知 
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M 


AB 


此 参数 设置 


E 


AE 


告诉 SAS 系统 在 读 取 数 据 文件 时 ， 如 果 对 应 列 当 前 i 
行 长 度 不 够 INPUT 语句 声明 中 定义 的 列 长 ， 就 把 此 列 当前 对 应 的 数据 截取 出 来 给 此 列 。 如 
读 取 到 的 数据 行 是 最 后 一 条 记录 ， 了 且 当 前 列 也 没有 数据 值 ， 习 


是 截取 ， 从 英文 
卖 到 的 数据 


FH 
ZR 


Bb 么 从 此 列 和 此 列 之 后 的 都 赋值 


给 缺失 值 ， 用 点 〈.) 表示 。 

STOPOVER: STOP 和 OVER 这 两 个 单词 的 组 合 ， 翻 译 成 中 文 就 是 停止 结束 。 如 果 在 数 
据 文件 读 取 时 INFILE 里 面 设置 了 这 个 选项 ， 就 是 告诉 SAS 系统 在 读 取 数 据 文件 时 如 果 读 取 
到 的 当前 数据 行 的 长 度 不 能 满足 INPUT 语句 中 声明 的 列 长 度 ，SAS 就 停止 读 取 后 面 的 数据 ， 
直接 以 当前 已 经 读 取 的 符合 INPUT 语句 中 定义 列 标准 的 数据 建立 数据 集 。 

LRECL-: 正 整 数 的 值 ， 告 诉 SAS 系统 中 的 INFILE 所 读 取 的 外 部 文件 的 逻辑 记录 长 度 ， 
它 依靠 记录 格式 (RECFM=VALUE) 来 定 ， 默 认 是 256 个 字 节 。 文 件 记录 长 度 超 过 这 个 长 度 
要 在 LRECL 指定 文件 长 度 ， 最 大 是 32767。 

RECFM=: 指定 文件 数据 格式 (RECORD-FORMAT，RECFM) ， 取 值 从 下 面 指定 的 值 
中 选择 对 应 文件 匹配 的 格式 。 

e r: 数据 文件 数据 块 不 国定 ， 每 条 记录 值 的 长 度 固 定 。 

e v: 数据 文件 数据 块 不 固定 ， 记 录 变 长 。 

e FB: 数据 文件 中 数据 块 固定 ， 每 条 记录 值 的 长 度 固定 。 

@ VB: 数据 文件 中 数据 块 固定 ， 记 录 变 长 。 

e U: 数据 文件 中 数据 块 不 固定 ， 记 录 变 长 。 

FIRSTOBS 与 OBS 参数 : 

FIRSTOBS: FIRST fll OBSERVATION 这 两 个 单词 的 组 合 , 告诉 SAS 系统 当前 读 取 的 数 
据 文件 或 数据 块 从 哪 条 数据 行 记录 开始 读 取 数据 文件 或 数据 块 ， 取 值 为 正 整数 。 

OBS: OBSERVATIONS 的 缩写 ， 翻 译 成 中 文 是 观察 记录 的 意思 。 通 过 这 个 参数 的 设置 
告诉 SAS 系统 读 取 当 前 数据 文件 或 数据 块 到 第 几 行 记录 结束 。 

【 例 2.49】 读 取 客户 基本 信息 数据 文件 ， 数 据 文件 物理 位 置 存储 在 “dxNxxx.txt”， 建 
立 客户 信息 数据 集 cust_inf。 


%let dir= D: yxyxxx.txt; 
%let filename- "&dir"; 
data cust inf, 
Infile  &filename missover  lrecl-270 ; 
人/# 读 取 文 件 用 了 missover 参数 ， 文 件 记录 长 度 超过 默认 256,32 LRECL 指定 长 度 */ 
input id $ 


name $ 
sex $ 
huf $ 
address $ 
zone $ 
phone $ 
myhf 3. 
ysr $ 
yj $ 
qrq $ 
car $ 
house $ 
gjj $ 
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xyd $ 
bankc $ 
likel $ 
like2 $ 
child $ 
dw $ 
xz $ 
dwyb $ 
zfamt $ 
ylamt $ 
yy $ 
fybx $ 
bxl $ 
bx2 $ 
cust bank $ 
jj $ 


run; 


【程序 解读 】 INFILE 中 指定 选项 missover 对 缺失 值 处 理 ， 以 点 CO 表示 ， 由 于 读 取 的 
外 部 文件 长 度 超过 默认 长 度 256， 必须 用 选项 lrecl= 指 定 。 此 文件 中 lrecl=270 表示 文件 一 行 记 


录 长 度 为 270 字 节 。 
【提示 】 通过 此 程序 要 学 会 根据 文件 的 不 同 来 # 


JEH INFILE 读 取 数据 文件 的 哪些 参数 ， 


N 


只 是 其 中 的 一 类 ,文件 长 度 超 过 了 默认 文件 长 度 256 
这 个 参数 则 后 面 的 会 被 截断 。 
【 例 2.50】 取 数 据 文件 “dNxzone.dat” 的 第 一 


%let dir= D: yx zone.dat; 


具体 参数 设置 要 学 会 查 SAS 帮助 。 由 于 INFILE 里 面 的 参数 太 多 ， 不 能 一 一 讲解 。 这 个 程序 


， 要 用 LRECL= 指 定 文件 长 度 。 如 果 不 加 


Ls 


[ 5i 
5 
CA 

R 
E 
B 
Lir. 


成 数据 集 zone5. 


filename  wijlj "&dir";/*xE[z / AR ARZ ARR TE */ 


data zone5; 


Infile wjlj truncover  firstobs-l ^ obs-5; 
PSEROCTEHI T firsobs 和 obs 两 个 参数 ， 来 控制 读 取 文 件 记 录 条 数 */ 
input dq $ 


youbian $ 


run; 


【说 明 】 INFILE 后 面 可 以 直接 跟 文件 路 径 ， 但 这 不 是 一 种 很 好 的 编程 规范 ， 不 利于 程序 


的 修改 和 阅读 。 不 提倡 用 此 方式 ， 建 议 INFILE 语句 与 FILENAME 语句 联合 应 用 。 


2. FILE 语 句 


SAS 语言 写 入 外 部 数据 文件 是 通过 FILE 语句 实现 其 功能 的 。 对 比 INFILE 语句 和 FILE 


语句 实现 的 功能 ， 可 以 发 现 其 不 同 之 处 ，INFILE 语句 和 FILE 语句 可 以 说 是 一 对 ， 只 是 功能 


方面 INFILE 语句 是 读 外 部 数据 文件 或 数据 块 , FILE 
FILE 语句 是 把 PUT 语句 后 面 指定 的 变量 所 对 应 的 数 
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语句 是 把 数据 写 到 指定 目录 的 数据 文件 。 
据 输 出 到 指定 文件 , 要 和 PUT 一 起 使 用 。 


语法 格式 : FILE 文件 名 <ENCODING=' 编 码 类 型 > < 选项 > < 主机 选项 > ; 
【语法 解读 】 
1) 文件 名 : 可 以 取 的 选项 如 下 。 
Q 指定 要 写 入 外 部 文件 的 文件 名 ， 可 以 直接 写 完 整 路 径 下 的 文件 名 。 
@ 可 以 写 宏 变量 名 ， 宏 变量 指定 外 部 文件 的 完整 路 径 。 
(3) 可 以 写 到 SAS 日 志 窗 口 ， 取 LOG 选项 就 可 以 。 
© 可 以 写 到 SAS 的 OUTPUT 窗口 ， 取 PRINT 选项 就 可 以 。 
2) ENCODING=' 编 码 格式 >: 可 选项 ， 指 定 要 写 入 到 的 文件 编码 ， 告 诉 SAS 写 入 到 的 文 
F 是 什么 编码 。 
3) < 选项 >: 可 选项 。 写 入 到 文件 的 控制 的 选项 比较 多 ， 常 用 文件 选项 如 下 : 
Q) BLKSIZE= 指 定 写 入 到 的 文件 大 小 。 
© LRECL= 正 整数 的 值 ,告诉 SAS 系统 中 的 INFILE 所 写 入 的 外 部 文件 的 逻辑 记录 长 度 ， 
它 依靠 记录 格式 (RECFM=VALUE ) 来 定 ， 默 认 是 256 个 字 节 。 文 件 记录 长 度 超 过 这 个 长 度 
要 在 LRECL 指定 文件 长 度 ， 最 大 是 32767。 
®© RECFM= 文 件 的 数据 格式 (RECORD-FORMAT，RECFM) ， 取 值 从 下 面 指定 的 值 中 
选择 对 应 文件 匹配 的 格式 。 
e F: 数据 文件 数据 块 不 国定 ， 每 条 记录 值 的 长 度 固 定 。 
e v: 数据 文件 数据 块 不 固定 ， 记 录 变 长 。 
@ FB: 数据 文件 中 数据 块 固定 ， 每 条 记录 值 的 长 度 固定 。 
@ VB: 数据 文件 中 数据 块 固定 ， 记 录 变 长 。 
e U: 数据 文件 中 数据 块 不 固定 ， 记 录 变 长 。 
(à DROPOVER: DROP 和 OVER 这 两 个 单词 的 组 合 。 通 过 单词 的 意思 就 可 以 知道 ， 如 
果 写 入 的 文件 超出 规定 的 数据 行 的 长 度 ， 就 丢失 它 。 
© FLOWOVER: SAS 的 默认 选项 ， 如 果 写 入 的 文件 中 不 指明 选项 ， 默 认 就 是 
FLOWOVER， 它 告诉 SAS 系统 在 写 入 到 数据 外 部 文件 时 如 果 当 前 数据 行 的 记录 长 度 超过 规 
定 的 行 记 录 长 度 ， 就 把 超出 的 行 记 录 写 到 下 一 行 。 
© DSD: Delimiter, Sensitive 和 Data 的 缩写 ， 翻译 成 中 文 是 敏感 数据 分 割 。 这 个 选项 用 
来 告诉 SAS 系统 数据 包含 散 入 的 符号 ， 如 制 表 符 、 逗 号 或 用 引号 括 起 来 的 值 。 这 样 分 隔 符 号 
就 可 以 包含 在 数据 中 写 入 文件 。 指 定 DSD 选项 后 默认 分 割 符 是 逗号 。 
© MOD: 在 写 入 的 文件 中 任何 行 对 输出 之 后 就 写 输出 行 到 输出 。 如 果 不 加 这 个 参数 默 
认 是 OLD 的 输出 。 
4) < 主机 选项 >: 可 选项 ， 是 在 UNIX 操作 系统 环境 下 的 选项 。 但 有 几 个 选项 在 Windows 
操作 系统 环境 下 也 可 用 (如 LRECL= 和 RECFM=)。 
Q) BLKSIZE= 或 写成 BLK=: 指定 写 入 文件 的 字 节 数 ， 默 认 是 8KB， 最 大 为 1GB。 
© NEWIOLD: 告诉 SAS 系统 把 打开 的 新 的 文件 作为 输出 ， 如 果 文 件 名 存在 ， 则 把 这 个 
存在 文件 删除 并 重建 。 这 是 个 默认 的 选项 动作 。 
@) UNBUF: 告诉 SAS 系统 不 要 把 缓冲 区 数据 写 入 到 文件 。 此 选项 特别 适合 在 编写 的 数 
据 收 集 程序 中 限制 缓冲 区 数据 写 入 到 文件 。 
为 便于 深刻 理解 和 运用 FILE 语句 ， 下 面 举 几 个 实例 。 


Lr 
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LE. 


【 例 2.51】 FILE 语句 应 用 ， 把 数据 集 cust 写 入 到 d: jx cust.txt Cf] 
割 数 据 。 
程序 如 下 : 
data cust; 
Input id $ name $ jf 
cards; 
001 刘 小 红 300 
002 张大 发 5600 
003 马 微 雨 345 
run; 
data | NULL ;xX 只 是 数据 处 理 ， 不 生成 数据 集 ， 命 名 数据 集 为 null */ 
set ”cust;/*set 语句 读 取 cust 数据 集 */ 
file 'd:\jx\cust.txt'; P*file 语句 ， 把 数据 集 数 据 写 入 到 指定 目录 的 文件 中 */ 
put (l id $ /*put 语 句 输出 列 内 容 */ 
@4 '' 
@5 name $ 
«MI 
@12 jf 5. 
run; 
【注意 】 一 个 中 文字 符 占 两 个 字 节 ， 要 注意 @n 标的 是 每 个 列 的 开始 
可 以 看 到 每 个 列 的 开始 位 置 。 输 出 分 隔 符 占 一 列 ， 要 计算 在 内 。 
【 例 2.52】 以 Oracle 数据 库 里 的 数据 表 jx_inf 为 例 ， 把 该 表 里 的 数 


inf.dat 目录 下 的 文件 里 ， 以 分 隔 符 


实验 步骤 如 下 : 
1) 先 在 Oracle 数据 库 里 输 下 面 的 建 表 语 句 。 
create table jx inf (id char(8),host varchar2(15),address varchar2(30),fees number(5,1), 


time len number(4),arrears count number(3),last mtimel timestamp,curr mtimel timestamp,next - 


mtimel timestamp); 


2) 在 Oracle Zi EE H 


执行 插入 语句 到 表 中 。 
insert into jx inf values (12345676' 刘 小 红 '" 北 京 了 


丰台 


区 丰台 


F 中 ， 列 之 间 用 “|” 分 


j UltraEdit 


居 写 入 到 dix Veust 
“|” 分 割 数据 列 ， 目 的 是 学 习 LRECL= 参 数 的 应 用 。 


V BI, 300, 20, 7, to. date 


(2012-04-17 09:01:10','Y YYY-MM-DD HH24:MESS^,to date(2012-04-16 10:01:10, 'YYYY- 


MM-DD HH24:MESS^,to date(2012-04-18 12:01:10', 'YYY Y-MM-DD HH24:MESS?); 


3) E SAS Ji 口 执行 下 面 的 SAS 程序 。 


EL zy 


E 


【提示 】 登录 数据 库 的 user= 登 录 数 据 库 的 用 户 名 ， 
path= 登 录 的 数据 库 。 要 把 LIBNAME 语句 的 这 3 项 改 成 你 的 数据 库 信息 。 


%LET out-'d:jx cust inf.dat', 


生成 此 文件 。 
程序 如 下 : 
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password= 登 录 数 据 库 的 密码 ， 


3X H 


的 路 径 d:\jx H4 


CÉETf, cust inf.dat 不 用 如 


ERIE Dh 
用 分 隔 符 分 割 的 数据 。SAS RRN RG 
nz RIZ EAE 


系统 数据 文件 或 数据 块 数 据 之 | 
定义 的 列 变量 。SAS 语法 引用 该 语 
语法 格式 : DELIMITER=' 分 B 
【 例 2.53】 外 部 数据 文人 
d:yjx\bl.dat。 数 据 文件 格式 为 dat FX. di 


libname jx oracle user=chiran password-chiran path=orcl; 


[* & 7. Oracle 数据 库 连 接 


Volet out-'d:jx cust inf.dat'; 
data ^ NULL ; 


file &out lrecl-134; /*FILE i$ 5]jtXttj 
set jxjx in£ 人 # 读 数据 库 中 的 表 jx inf*/ 
put (Ql id | $8/*PUT 语句 把 表 数 


@9 1 
@10 host $15. 
@25 "| 
(226 address $30. 
(56 "| 
(257 fees 5.1 
(2062 ' 
(263 time len 4. 
Q67 "| 


(268 arrears count 3. 


«qn | 


(272 last mtimel datetime20.1 


«92 "| 


(293 curr mtimel datetime20.1 


Q3 ' 


(2114 next mtimel datetime20.1 


(2134 '| 


run; 


【程序 解读 】 file 语句 中 指定 LRECL= 选 项 ， 
【说 明 】 FILE 在 写 入 到 外 部 文件 时 如 果 行 记录 长 度 超过 256， 要 用 LRECL= 参 数 指定 ; 
如 果 不 超 过 这 个 长 度 可 以 省 略 此 参数 。 


2.2.7 DELIMITER 语 句 与 LENGTH 语 名 


.DELIMITER 语 句 


DELIMITER 语句 主要 用 来 告诉 SAS 系统 变量 之 间 的 数 所 


局 符 。 通 过 这 个 单词 可 以 知道 SAS 用 这 个 语法 来 处 到 


录 的 文件 路 径 的 宏 变 量 */ 


Volet dir= 'd: jx bl.dat'; 


上 的， 就 可 以 省 略 这 个 参数 。 通 过 DELI 


告诉 SAS 系统 一 行 记录 的 长 度 是 多 少 。 


中 以 什么 类 型 分 制 ， 中 文 意思 六 
数据 文件 或 数据 块 数据 之 间 
四 之 间 以 空格 分 制 。 如 果 所 给 数据 
MITER 告诉 SAS 


H 


司 遇 到 分 隔 符 为 一 个 间隔 列 ， 可 以 把 数据 赋值 给 INPUT 语句 中 
人 句 时 可 以 简写 成 DLM。 
简写 为 DLM=' 分 害 
F bl.dat 以 数据。 数据 文件 存储 位 置 为 


居 文 件 建立 数据 集 blo 
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filename 
data bl; 


wbwj "(&dir)"; 


Infile wbwj dlm-,; ”/* 文 件 以 逗号 “,” 分 割 ， 指 定 文件 分 隔 符 dlm=",*/ 
length fh $50.; 
input bh$ fh jyl cs sr 
run; 


【程序 解读 】 INFILE 语句 中 ， 读 取 外 部 数据 文件 之 间 以 逗 
告诉 SAS 系统 以 分 隔 符号 表示 变量 对 应 数据 结束 。 

【 例 2.54】 数据 步 读 入 CARDS 数据 块 的 数据 ， 数 据 分 隔 
程序 如 下 : 


data cust dlm; 
dim-; 
input qh $ mobile zone $; 


infile cards 


cards; 
101/62378854341/010| 
102|12376598763/031| 


run; 
Ay E 


符号 


/# 读 入 cards 数据 块 中 以 dim- 12) 390 5 203] 


1 的 变量 数 


口 


号 分 


HET dlm-;' 


为 “ 


”， 建 立 数据 集 cust dim. 


居 */ 


【提示 】 如 果 分 隔 符 是 Windows 操作 系统 的 制 表 符 号 ， 
这 个 x 告诉 SAS 系统 是 Windows 操作 系统 。 如 果 是 其 他 操作 系 


单 引 号 外 要 加 x。 如 DLM='09'x。 


统 就 查 系统 标识 ， 有 具体 问题 具 


éé » 


€» » 
s $ 


体 分 析 。 常 用 的 数据 文件 或 数据 块 数据 之 间 的 分 隔 符 如 下 : "|" 
2. LENGTH 语 句 
SAS 语言 对 定义 的 变量 

量 ， 要 首先 用 LENGTH 语句 来 定义 变量 ， 并 指定 长 度 。 


语法 格式 : LENGTH 变量 名 <$> 变量 长 度 ; 


是 有 默认 值 ， 默 认 变量 的 长 度 为 8 个 字 节 ， 超 过 8 个 字 节 长 度 的 变 


【语法 解读 】 LENGTH 是 关键 字 ， 如 果 变 量 是 字符 类 型 
符号 。 
【提示 】 LENGTH 语句 与 INPU 


面 ，INPUT 语句 中 引 月 
【 例 2.55】 LENGTH 语 名 应用， 地址 变量 数 
程序 如 下 : 


超过 默认 长 


data cust addr; 
length address $30.; 
/*length 语句 定义 变量 address， 指 定数 ] 


PLA 


时 类 型 长 度 为 字符 类 型 ， 


的 ， 定 义 变量 类 型 前 


h 加 s. d 


T 语句 一 起 使 用 时 必须 把 LENGTH 语句 放 在 INPUT 语句 前 
H LENGTH 语句 中 定义 的 变量 不 需要 再 定义 ， 直 接 引 用 变量 名 就 可 以 了 。 


度 ， 建 立 数据 集 cust_addr。 


长 度 为 30*/ 


付 
input id $ name $ sex $ address; 

cards; 

1001 高 小 名 下 北京 市 西城 区 广安 门 外 大 街 63 号 院 9 号 楼 1 单 


1002 李 小 雷 M 山东 省 济南 市 槐 荫 区 


, 


run; 
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元 


【程序 解读 】 由 于 变量 address 的 字符 长 度 超过 了 默认 长 度 8 


AMBAE  GEGHD. 


八字 节 ， 需 要 通过 LENGTH 


语句 定义 变量 ， 并 定义 变量 类 型 。INPUT 语句 中 直接 引用 此 变量 名 ,不 需要 再 定义 变量 类 型 。 
22.8 日 期 与 时 间 定义 


SAS 语言 中 的 数据 类 型 有 两 种 ,分 别 是 字符 型 和 数值 型 。SAS 中 日 期 与 时 间 的 处 理 选择 
期 和 时 间 转 换 成 数值 型 来 存储 。SAS 人 为 地 约定 1960 年 1 月 1 


了 把 日 


作为 基准 日 期 ， 把 此 


日 期 定义 为 零 (0) 这 个 数值 类 型 存储 在 SAS nm, 


日 这 一 天 为 开始 日 期 ， 
其 他 日 期 的 存储 是 通 


过 从 1960 年 1 月 1 日 到 所 给 日 期 计算 出 的 天 数 间 隔 值 来 存储 的 。 1960 年 1 月 1 日 之 前 的 存 


储 为 负 值 。 相 当 于 


秒 为 单位 进行 计算 。 
当前 日 期 为 yyyy 年 m 月 n 日 
天 数 的 计算 公式 = 当前 年 份 (yyyy) 的 天 数 + (yyyy-1) 年 的 天 数 +…+1961 年 的 天 数 + 当 
前 1 月 份 天 数 + 当 前 2 月 份 天 数 +…+ (m-1) 月 份 的 天 数 + (Cn-1) 的 天 数 


SAS 在 日 期 的 读 入 时 有 自己 定义 的 日 期 和 时 间 格 式 ， 在 对 外 输出 时 也 有 自己 定义 的 输出 


日 期 之 间 做 减法 运算 ， 来 求 天 数 。 时 间 的 存储 值 也 是 从 零 (0) 时 开始 ， 以 


日 期 和 时 间 格 式 ， 这 是 SAS 的 特殊 之 处 。 下 面 举例 来 进一步 讲解 SAS 日 期 和 和 时间 ， 以 及 它们 


的 应 用 


o 


1. 读 入 日 期 的 格式 
(I? DATEw. 


【说 明 】 DATE 是 日 


期 关键 字 ，w 指定 日 期 长 度 。 默 认 是 7， 超 过 7 的 长 度 要 定义 。 读 入 


的 日 期 书写 格式 为 ddmmmyy 或 ddmmmyyyy 的 格式 日 期 (dd 指 的 是 所 在 月 的 某 一 天 ， 取 值 
为 01 到 31 的 某 一 天 ，mmm 指 用 英文 书写 月 份 的 前 3 个 字母 ，yyyy 指 4 位 表示 的 年 份 ) 。 
【 例 2.56】 读 入 客户 开 卡 信息 ， 建 立 数据 集 opencard。 


4 
=> 


data ^ open card; 


Input id nm $ name $ open dt date; /*open dt 用 的 默认 日 期 */ 


cards; 
10001 高 小 红 10mar12 
10002 刘 晓 霞 18apr12 


run; 
proc print label; 

format open dt yymmdd10.;/*format 语句 定义 了 日 期 输出 显示 格式 */ 
run; 


窗口 显示 输出 结果 ， 如 图 2-11 所 示 。 
Bib- (无 标题 ) 


Dbs id_nm name open dt 
1 10001 高 小 红 2012-03-10 
2 10002 ABFE 2012-04-18 

| 


图 2-11 客户 开 卡 信息 输出 窗口 
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(2) DATETIMEw.d 

【语法 解读 】 DATETIME 是 定义 读 入 日 期 时 间 格 式 的 关键 字 ，w 指定 日 期 时 间 长 度 ，w 
值 要 取 偶 数 ， 默 认 是 16，d 用 来 指定 秒 的 值 。 注 意 d 的 值 要 比 w 的 值 小 。 

【 例 2.57】 交易 时 间 到 秒 ， 建 立 数据 集 trandt。 

程序 如 下 : 


data trandt; 

length card nm $16. 

input card nm trade time datetime 18.1; 
/*datetimel8.l 定义 读 入 trade time 用 的 日 期 时 间 */ 
label card_nm=' 卡 号 ' ”trade_time=' 交 易 时 间 '; 
cards; 
1603134567812323 13apr12:9:28:56.8 
2000197645231586 12apr12:10:30:36.7 


run; 

(3) JULIANw. 

【语法 解读 】 JULIAN 是 日 期 关键 字 ，w 是 定义 的 日 期 长 度 ， 默认 是 5。 读 入 日 期 书写 格 
式 为 yydd 或 yyyyddd。yy 和 yyyy 分 别 代 表 读 入 的 两 位 和 4 位 的 年 份 。 ddd 是 从 当前 年 初 到 当 
前 年 份 日 期 算 起 的 天 数 ， 范 围 为 从 01 一 365 的 值 。 

2. 输出 日 期 的 格式 

SAS 系统 在 对 输出 日 期 格式 方面 有 更 多 输出 日 期 格式 的 设置 ， 和 上 面 讲 的 读 入 日 期 时 间 
的 格式 一 样 。 输 出 日 期 格式 有 很 多 ， 常 用 的 输出 日 期 格式 有 : DATEw.、DATETIMEw.d、 
DAYw.、MONTHw.、YEARw. 等 。 其 他 日 期 可 以 查 sas 帮助 文档 。 


2.2.9 INFORMAT 与 FORMAT 定 义 数据 格式 


1. INFORMATi&4] 

实际 开发 中 SAS 系统 默认 变量 属性 的 设置 满足 不 了 需求 ,因此 SAS 语言 通过 INFORMAT 
语句 根据 实际 需求 定义 变量 输入 格式 。 

语法 格式 : INFORAMT 变量 名 数据 类 型 格式 ; 


【 例 2.58】 INFORMAT 语句 应 用 ， 建 立 数据 集 in_sy。 
程序 如 下 : 
data in sy; 


informat sy dt mmddyy10.; 

诺 根 据 输入 数据 时 间 ， 定 义 读 入 变量 sy_dt 的 数据 日 期 格式 */ 
length yj $30. ; 

input  yj$ sy dt; 

cards; 

JExi 10-23-2010 

山东 09-08-2011 


E 


run; 
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proc print; 
format sy dt yymmdd10.; 
run; 
【程序 解读 】 INFORMAT 语句 定义 变量 sy. dt 并 指定 输入 数据 类 型 格式 为 mmddyy10.。 
2. FORMAT 语 句 
FORAMT 语句 的 设置 和 INFORMAT 语句 的 设置 基本 一 样 。 不 同 点 是 FORMAT 语句 定 
义 变量 的 输出 数据 格式 ， 与 INFORMAT 相反 ， 但 定义 方式 一 样 。 
语法 格式 : FORMAT 变量 名 定义 数据 类 型 格式 。 
【 例 2.59】 FORMAT 格式 应 用 ， 对 例 2.58 进行 改造 。 
程序 如 下 : 


data in syformat; 


informat | sy dt | mmddyyl0.; 
庆 根 据 输入 数据 时 间 ， 定 义 读 入 变量 sy dt 的 数据 日 期 格式 */ 


format sy dt yymmdd10.; 
AIRIA, ENEE sy dt 的 数据 日 期 格式 */ 


length yj $30. ; 
input yj$ sy. dt; 
cards; 

北京 10-23-2010 

山东 09-08-2011 


run; 
【程序 解读 】 FORMAT 格式 指定 变量 sy_dt 的 输出 格式 为 yymmdd10.。 
【提示 】 FORAMT 在 数据 步 和 PRINT 过 程 步 中 都 可 以 应 用 。 


2.2.10 LABEL 语句 与 RETAIN 语句 


1. LABELi&4] 

实际 项 目 开 发 中 经 常 需要 为 变量 加 入 描述 信息 ,以 便 其 他 编程 人 员 理解 此 变量 代表 什么 。 
SAS 语言 中 用 LABEL 语句 给 变量 定义 描述 信息 标识 。 描 述 信息 和 变量 名 一 起 被 存储 到 数据 
集中 。 

语法 格式 : LABEL 变量 名 =' 变 量 描述 信息 '; 

【语法 解读 】 

LABEL: 定义 变量 标签 的 关键 字 。 

变量 描述 信息 : 最 多 40 个 字符 。 

【 例 2.60】 LABEL 语句 应 用 ， 根 据 学 生 信 息 ， 建 立 数 据 集 students. 
程序 如 下 : 


data students; 
Length address $40.; 
input id $ name $ sex $ address $; 
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Label id=' 学 号 name 一 姓名 ' sex=' 性 别 ' ”address=' 家 庭 住 址 ' ; 
/*label 语句 对 变量 添加 描述 */ 
cards; 
1001 刘 晓 燕 F 北京 市 西城 区 广安 门 外 大 街 
1002 杨 小 光 M 北京 市 东城 区 60 号 院 2 号 楼 1 单元 603 室 


, 


run; 
proc print label; 555] 4T EJ HH If fei IJI label 选项 才能 打印 出 标签 的 定义 描述 */ 
run; 


【程序 解读 】 LABEL 语句 对 INPUT 语句 中 定义 的 变量 指定 描述 性 信息 ， 便 于 用 户 理解 
每 个 变量 代表 什么 意义 。 

【注意 】 调用 PRINT 过 程 时 打印 标签 信息 必须 加 LABEL 选项 。 

2. RETAIN 语 句 

为 提高 程序 效率 ,使 变量 具有 的 数据 信息 保留 在 内 存 中 , 直到 退出 当前 程序 才 失 效 ，SAS 
语言 通过 RETAIN 语句 对 需要 赋值 的 变量 进行 声明 。 

语法 格式 : RETAIN 变量 名 初始 值 ; 

【语法 解读 】 

RETAIN: 关键 字 。 

变量 名 : 赋值 的 变量 。 

初始 值 : 具体 值 。 

【 例 2.61】 RETAIN 语句 应 用 ， 求 y WEZE, x 的 初始 值 为 2。 


程序 如 下 : 
*retain 语句 赋 初 始 值 给 变量 x; 
data mul; 


retain x 2; /*x 初始 值 赋值 为 2*/ 
y=x**3;/*y 值 为 x 的 三 次 晨 沁 
run; 


2.2.11 RENAME i£ 4 5 Jit £B i8 49] 


1. RENAME 4J 
实际 项 目 开发 中 对 数据 二 次 处 理 时 经 常 需要 改变 变量 的 名 字 ， 以 便 理 解 或 与 其 他 数据 集 
的 变量 名 统一 。SAS 语言 对 数据 集中 的 变量 或 INPUT 语句 中 定义 的 变量 通过 RENAME 语句 
语法 格式 : RENAME =( 旧 变量 名 = 新 变量 名 ); 
【语法 解读 】 RENAME 是 关键 字 。 
功能 : 修改 变量 名 字 。 
【 例 2.62】 RENAME 语句 应 用 ， 将 数据 集中 的 变量 名 id 修改 为 id_nm。 
程序 如 下 : 


data rename id (rename=(id=id_nm)); "RÆ id 修改 为 id_nm*/ 
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input id name $ sex $ jf 
cards; 
1200031 刘小光 M 3000 
1100089 马 小 美 9000 


run; 


2. 数组 语句 

数组 是 在 程序 设计 中 ， 为 了 处 理 方 便 把 具有 相同 类 型 的 者 干 变量 按 有 序 的 形式 组 织 起 来 
的 一 种 形式 。 这 些 按 序 排列 的 同类 数据 元 素 的 集合 称 为 数组 。 

SAS 中 数组 存储 的 是 变量 ， 不 是 数据 ， 数 组 只 在 数据 步 (DATA STEP) 有 效 ， 数 组 的 标 
号 从 “1” 开 始 。 

语法 格式 : ARRAY 数组 名 {m<,n>} <$> < temporary > < 数组 变量 列表 >; 

【语法 解读 】 

ARRAY: 定义 数组 的 关键 字 。 

数组 名 : 给 数组 起 的 名 字 。 

{m<,n>}: m 数据 元 素 的 个 数 ，<,n> 只 有 在 二 维 数组 时 才 有 ， 可 选项 。 

<$>: 可 选项 ， 数 组 为 字符 类 型 时 才 有 此 项 。 

< 数组 变量 列表 >: 可 选项 ， 变 量 名 的 列表 。 

【注意 】 三 维和 二 维 定义 方式 一 样 。 

【 例 2.63】 定义 一 个 一 维 数组 ， 存 储 学 生 姓 名 。 


data — stu name; 
array name(3) $ (张小红 ' "刘晓峰 ' ' 上 官 晓 红 ");  * 定 义 一 个 字符 类 型 的 一 维 数 组 */ 
run; 


【 例 2.64】 定义 一 个 二 维 临时 数组 。 


data twotemarr; 
array temp(22)$ temporary ('A''B''C''D5; 
* 定 义 二 维 字符 类 型 临时 数组 */ 


y-temp(2,2); 
put y5; 
run; 
日 志 窗 口 显示 y-D. 
【提示 】 通过 上 面 可 以 看 出 临时 数据 不 保存 数据 集 ， 在 数据 集 里 为 空 ， 只 是 作 临 时 处 理 
数据 用 。 


2.2.12 ”SAS 编 程 注释 与 OPTIONS 语 名 


1. SAS 编 程 注释 

书写 程序 养 成 添加 注释 的 习惯 是 为 了 增强 程序 的 可 读 性 ， 让 其 他 人 更 好 地 理解 程序 的 功 
能 和 用 途 。 

SAS 添加 注释 的 方式 有 两 种 ， 根 据 实际 开发 的 需要 可 以 选择 合适 的 方式 。 


41 


D 第 一 种 方式 : * 书 写 注释 语句 ;。 

【说 明 】 以 * 〈 星 号 ) 开始 ， 中 间 写 注释 语句 ， 以 “;” 分 号 结束 。 这 里 的 分 号 是 在 输入 
法 为 英文 的 状态 下 输入 的 分 号 ， 和 程序 中 用 到 的 分 号 一 样 。 

2) 第 二 种 方式 : /* 注释 语句 */。 

【说 明 】 以 “/x*” 开 始 ， 中 间 写 注释 语句 ， 以 “*/” 结 束 。 

2. OPTIONS 语 句 

OPTIONS 语句 主要 用 来 临时 改变 用 户 安装 SAS 时 的 SAS 系统 选项 中 的 选项 设置 。 通 过 
OPTIONS 语句 改变 的 SAS 会 话 或 作业 中 的 设置 会 一 直 有 效 , 直到 再 次 通过 OPTIONS 语句 改 
变 。OPTIONS 语句 可 以 出 现在 SAS 系统 的 任何 地 方 。 若 OPTIONS 语句 放 在 数据 步 内 或 过 程 
步 内 ， 此 语句 只 对 该 步 有 效 ; 若 放 在 某 一 步 之 外 ,此 语句 只 对 跟随 在 OPTIONS 语句 后 的 那 一 
步 有 效 。 

OPTIONS 语句 语法 格式 : OPTIONS 选项 。 

【语法 解读 】OPTIONS: 关键 字 。 

选项 ， 改变 SAS 系统 默认 选项 设置 的 选项 。 
OPTIONS 具有 的 常用 选项 及 功能 说 明 如 表 2-4 所 示 。 


表 2-4 OPTIONS 具有 的 常用 选项 及 功能 说 明 


选 项 功能 说 明 
date 输出 页 显示 日 期 ，SAS 系统 默认 输出 页 显示 日 期 
nodate 输出 页 不 显示 日 期 
center 对 中 设置 ， 输 出 页 信息 居中 ，SAS 系统 默认 输出 信息 居中 
nocenter 输出 页 信息 不 居中 
number 页 码 设置 ， 有 页 码 
nonumber 输出 无 页 码 
linsize= 行 宽 设置 
pagesize= 指定 每 个 输出 页 显示 的 行 数 ， 取 值 范围 为 [15，32767] 的 整数 值 
firstobs=|obs= 对 显示 数据 集 设置 : 指定 从 第 几 条 记录 开始 到 第 几 条 记录 结束 
Imprint 在 日 志 中 对 宏 语 句 显示 信息 设置 ， 打 印 输出 宏 语句 信息 
nomprint 不 显示 宏 语 句 信 息 到 日 志 
mlogic 对 宏 过 程 执 行进 行 跟踪 : 对 宏 过 程 执行 情况 写 日 志 到 日 志 窗 
nomlogic 不 写 宏 过 程 执行 情况 到 日 志 窗 
missing= 指定 数据 集中 数值 型 的 缺失 值 用 什么 字符 类 型 替换 
syntaxcheck 对 程序 语法 检查 设置 ， 需要 语法 检查 
nosyntaxcheck 不 需要 语法 检查 
dmssynchk SAS Windows 环境 中 启动 对 多 个 步 的 语法 检查 : 启动 语法 检查 
nodmssynchk 不 启动 语法 检查 
notes 志 窗 口 默认 显示 注释 
nonotes 设置 日 志 窗 口 不 显示 注释 
nosource 志 窗 口 不 显示 编写 的 程序 信息 
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【 例 2.65] 通过 OPTIONS 语句 改变 数据 集 默认 设置 。 通 过 宏 查 询 数 据 集中 符合 条 件 的 
数据 信息 。 


%macro define op(v bh); /* 宏 过 程 开 始 */ 
options obs=2 compress=yes; 
/*options 语句 中 obs=3 指明 取 数 据 集 的 前 二 条 数据 ，compress=yes 指明 对 数据 集 压缩 %/ 
options mlogic mprint nosyntaxcheck nodmssynchk; 
/*options 语句 中 mlogic 指明 对 宏 过 程 跟踪 写 日 志 到 日 志 窗 口 ，mprint 指明 打印 输出 宏 信 息 */ 
/*nosyntaxcheck 指明 不 需要 语法 检查 ，nodmssynchk 对 启动 的 多 个 SAS 步 程 序 不 启动 语法 检查 */ 
记 数 据 处 理 */ 
Volet dir= 'd: jx bl.dat'; 
Filename — wbwj "(&dir)"; 
data blsj; 
infile wbwj dim=', ;/# 文 件 以 逗号 “,” 分 割 ， 指 定 文件 分 隅 符 dm=’ ,' */ 
length fh $50. 

input bh$ fh jyl cs sr 


四 


run; 
BE SQL 过 程 实现 根据 条 件 查 询 数 据 集 信息 */ 

proc sql; 

select *from blsj where bh-&v bh; /* 引 用 宏 参 数 */ 

quit; 

%mend define op; /* RIJE RER */ 

%define_op('01002); /# 宏 调用 ， 并 传递 实 参 01002 给 宏 变 量 v_bh*/ 


"n 


【程序 解读 】 本 程序 通过 宏 过 程 引 用 了 OPTIONS 语句 改变 SAS 系统 的 默认 选项 设置 。 
具体 宏 过 程 后 面 章节 会 有 详细 的 讲解 ， 本 案例 重点 学 习 OPTIONS 语句 的 应 用 。 
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第 3 章 ”数据 步 基础 与 案例 


3.1 数据 步 基础 


SAS 系统 分 为 两 个 步 : 数据 步 和 过 程 步 。 数 据 步 是 SAS 系统 处 理 数 据 的 核心 部 分 ，SAS 
系统 通过 数据 步 对 外 部 数据 文件 或 其 他 数据 库 中 的 表 数 据 或 已 经 生成 的 数据 集 进 行 处 理 ， 生 
成 SAS 能 识别 的 数据 。 数 据 步 就 是 一 个 动态 处 理 数据 的 过 程 ， 数 据 步 处 理 完成 后 生成 的 数据 
存储 到 逻辑 库 对 应 的 目录 中 ，SAS 其 他 模块 或 过 程 步调 用 数据 步 生 成 的 数据 ， 数 据 步 生成 的 
数据 集 可 以 作为 数据 分 析 、 数 据 挖掘 和 创建 模型 的 数据 基础 。 


3.1.1 数据 步 概述 与 定义 


1. 数据 步 概述 

实际 的 开发 中 经 常 遇 到 的 是 来 自 其 他 系统 的 数据 ， 如 关系 数据 库 数 据 (Oracle, DB2, 
Teredate、SASSPDS) 、 主 机 COBOL 语言 生成 的 数据 文件 、 外 部 的 其 他 文本 文件 数据 等 外 部 
数据 ， 对 于 这 些 数据 SAS 系统 要 对 其 能 够 识别 和 利用 , 首先 需要 通过 SAS 系统 对 这 些 外 部 数 
据 进 行 处 理 ，SAS 系统 处 理 数 据 的 过 程 称 为 数据 步 。 因 此 归纳 总 结 可 以 得 出 数据 步 主 要 是 处 
理 数据 的 过 程 。 无论 用 SAS 的 哪个 模块 做 应 用 研究 和 分 析 处 理 , 首先 都 要 有 正确 有 效 的 数据 ， 
数据 步 处 理 数 据 的 优 劣 直接 影响 到 其 他 模块 分 析 的 正确 性 。 数 据 步 是 SAS 系统 处 理 数据 的 核 
心 步 ， 学 好 SAS 数据 步 是 学 习 SAS 其 他 模块 的 基础 。 

2. 数据 步 定义 

理解 SAS 系统 数据 步 语 法 定义 是 学 好 数据 步 的 关键 ， 数 据 步 以 “DATA ”关键 字 为 开始 
标志 ， 以 “RUN” 语 句 为 结束 标志 ， 每 个 语句 的 结束 符号 为 “;” (分 号 ) 。 

数据 步 语法 格式 : DATA “< 数据 集 名 > ”< 参数 选项 >: 

SAS 处 理 数据 集 语句 ; 
RUN; 


c— 


【语法 解读 】 
DATA: 数据 步 开 始 标 志 关 键 字 。 
数据 集 名 : 用 户 定 义 的 数据 集 名 ， 遵 守 SAS 命名 规范 ， 省 略 此 项 为 SAS 默认 数据 集 名 。 
参数 选项 :指定 设置 数据 集 的 选项 ， 如 KEEP、DROP、FIRSTOBS=、OBS=。 
SAS 处 理 数 据 集 语 句 : 对 数据 集 读 入 、 复 制 、 修 改 和 合并 、 条 件 判 断 等 基本 处 理 数据 语句 。 
RUN: 数据 步 结束 标志 
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数据 步 生成 的 就 是 SAS 能 识别 的 一 个 二 维 表 数 据 ， 如 果 读 者 学 过 其 他 关系 数据 库 ， 如 
ORACLE. DB2 等 ， 就 能 很 容易 地 理解 数据 步 生 成 的 数据 集 。 其 实数 据 集 名 就 是 一 个 表 的 名 
字 ， 只 是 叫 法 不 同 。 

【 例 3.1】 学 生 信息 数据 ， 数 据 集 名 字 为 students， 保 留 变量 name, sex. class. address. 


data students (keep-name sex class address); 
/xdata 数据 步 开 始 标志 ， 数 据 集 名 为 students，keep= 语 句 取 要 保留 的 字段 */ 
length address $30.; 
人 # 对 应 字符 类 型 的 变量 其 长 度 超过 默认 长 度 8 个 字符 要 通过 length 语句 先 定 义 变量 */ 
input id name $ sex $ class address; 
ŽENE, FEP address 为 length 语句 中 定义 好 的 变量 */ 
cards; /*iX€ cards 后 的 数据 */ 
1001 ARA FI 北京 市 西城 区 广 外 大 街 
1002 张 明 明 M 2 北京 市 东城 区 
; A 必 数 据 块 结束 这 里 要 有 个 分 号 */ 
run [Hb 
【程序 解读 】 
1) data: 告诉 SAS 系统 数据 步 开 始 。 该 关键 字 后 面 的 students 为 数据 集 名 字 ， 后 面 括号 
里 的 参数 选项 keep= 取 数据 集 要 保留 的 字段 。 
2) address 变量 长 度 超 过 默认 字符 类 型 长 度 8 个 字符 ， 需 要 通过 length 语句 定义 变量 ， 
而 不 能 在 input 语句 中 定义 变量 。 
3) input 语句 : 定义 变量 ， 并 引用 length 语句 中 定义 的 变量 。 
4) cards 语句 : 后 面 为 要 读 入 的 数据 ， 当 数据 结束 时 后 面 跟 “;”( 分 号 )。 
5) run: 告诉 SAS 系统 到 此 处 结束 。 
【提示 】 实际 应 用 开发 中 站 语句 与 where 语句 是 数据 步 经 常用 到 的 条 件 过 滤 语 句 。 因 此 
读者 要 重点 学 习 站 语句 与 where 语句 的 实际 开发 应 用 ， 通 过 下 面 的 案例 深刻 理解 条 件 过 滤 语 
句 的 应 用 。 
[513.2] 数据 步 过 滤 语 句 应用， 让 条 件 语句 应 用 。 对 客户 数据 cust.dat 处 理 ， 提 取 数 据 
文件 中 城市 为 北京 和 青岛 的 数据 ， 生 成 数据 集 open_bjqd， 其 他 城市 的 客户 数据 生成 到 other 
数据 集 ， 存 储 到 dix 目录 中 。 


libname jx 'd:\jx'; Pg SCBUIS SEE PRI FTO Een 
%let dir- 'd:\jx\cust.dat'; PRG SCAER ER TEES 
filename fil "(&dir)"; 让 此 语句 指定 定义 逻辑 文件 名 */ 

data jx.open bjqd jx.other; 人 # 同 时 建立 两 个 数据 集 ， 分 别 为 open_bjqd 和 other*/ 
infile fil; /# 读 入 外 部 文件 所 


input zone $ open count city $; 
if city in (北京 ,青岛 ) then output jx.open bjqd; 
/# 讶 语句 条 件 判断 ，output 语句 后 面 为 输出 到 的 数据 集 名 */ 
谍 把 北京 和 青岛 两 大 城市 的 客户 数据 存储 到 数据 集 jx.open_bjqd*/ 
else output jx.other; 放 把 其 他 城市 客户 数据 存储 到 数据 自 


jx-other*/ 


pau 


run; 
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【程序 解读 】 


1) if city in (北京 ,' 青 岛 ') then output jx.open bjqd; 此 语句 判断 city 为 in 这 个 语句 
范围 内 的 城市 客户 数据 ， 输 出 到 jx.open_bjqd 数据 集 。 


2) else output jx.other; 此 else 语句 把 不 满足 让 语句 的 数据 输出 到 jx.other 数据 集 。 


【提示 】 这 条 件 语句 中 then 语句 后 面 必须 加 output 语句 才能 输出 到 数据 集 。in 语句 里 为 
条 件 具 有 的 值 ， 此 处 in (北京 青岛) 表示 city 变量 的 值 如 果 为 北京 、 青 岛 两 个 城市 的 数据 就 
取出 来 输出 到 数据 集 jx.open_bjqd。 


【 例 3.3】 数据 步 where 条 人 
件 的 数据 集 。 


[过滤 数 据 集 。 对 例 3.2 进行 改造 ， 用 where 语句 生成 符合 条 


libname jx 'dNix; 人 # 定 义 数 据 集 存储 物理 路 径 的 逻辑 库 允 


%let dir- 'd: jx cust.dat'; /x* 外 部 数据 文件 的 路 径 */ 


filename fil "(&dir"; 此 语句 指定 定义 逻辑 文件 名 


data cust; 放生 成 数据 集 cust*/ 
infile fil; 和 # 读 入 外 部 文件 % 


* 先 对 外 部 数据 文件 处 理 ， 生 成 数据 集 cust; 


input zone $ open count city $; 


run; 


* 对 cust 数据 集 二 次 处 理 ， 把 北京 和 青岛 两 个 城市 的 数据 取出 来 生成 数据 集 bjqd; 


data jxbjqd; 必 数 据 集 bjqd*/ 


set cust (where=(city in (JERSE $); where 语句 把 city 为 北京 和 青岛 的 数据 取出 来 */ 


run; 


* 对 cust 数据 集 二 次 处 理 ， 把 不 是 北京 和 青岛 两 个 城市 的 数据 取出 来 生成 数据 集 othercity*/ 
data —jx.othercity; /# 数 据 集 othercity*/ 
set cust (where=(city notin ("北京 "青岛 )); /*where 语句 把 city 不 是 北京 和 青岛 的 数据 取出 来 */ 


run; 
【程序 解读 】 


1) where-(city in (北京 青岛) 语句 取出 city 对 应 城市 为 北京 和 青岛 的 数据 。 
2) where=(city not in (北京 青岛) 语句 取出 city 对 应 城市 不 为 北京 和 青岛 的 数据 。 


【提示 】 对 例 3.2 和 例 3.3 对 比 学 习 ， 可 以 发 现 where 语句 效率 比较 高 ，where 语句 是 批 


TEASE 


先 把 符合 条 件 的 数据 取出 来 放 到 内 存 ， 然 后 批量 生成 。 而 if 语句 是 一 条 条 读 取 ， 效 


实际 的 应 用 中 数据 步 经 常用 在 宏 


【 例 3.4】 


的 数据 ， 生 成 对 应 的 数据 集 。 


libname jx 'd:jx; 人 * 定 义 数 据 集 存储 物理 路 径 的 逻辑 库 */ 
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%let dir- 'dAjx cust.dat'; 放 外 部 数 


据 文件 的 路 径 */ 


率 比较 低 。 对 于 实际 应 用 数据 一 般 都 在 百 万 级 以 上 ， 一 定 要 考虑 程序 处 理 数据 的 效率 。 
过 程 中 , 数据 步 与 宏 过 程 的 联合 应 用 才能 体现 强大 的 


数据 步 与 宏 过 程 的 联合 应 用 ， 对 例 3.2 进行 改造 ， 用 宏 过 程 实现 取 每 一 个 城市 


filename fil "(&dir"; 人 * 此 语句 指定 定义 迎 辑 文件 名 */ 


* 先 对 外 部 数据 文件 处 理 ， 生 成 数 


data cust; /* 生 成 数据 集 cust*/ 
infle fil; 记 读 入 外 部 文件 */ 


EH cust; 


input zone $ open count city $; 
run; 
* 对 cust 数据 集 二 次 处 理 ， 把 北京 和 青岛 两 个 城市 的 数据 取出 来 生成 数据 集 bjqd; 
%macro city(v city); /* 定 义 宏 ， 宏 名 为 city*/ 
data ”jx.city; /* 数 据 集 名 city*/ 
set cust (where-(city-"&v city")); /*city= 宏 变量 对 应 的 值 */ 
run; 
%mend city; 
%city( 北 京 );)，/# 调 宏 过 程 city， 传 递 实 参 北京 给 宏 变 量 v_city*/ 


【程序 

D Pci city 中 定义 了 宏 变 量 v_city， 根 据 传递 的 参数 取 数 据 集 符 合 条 件 的 数据 。 

2) where=(city="&v_city) 条 件 语 名 根据 宏 变 量 的 值 而 取出 不 同 的 数据 ， 灵 活性 更 引 
过 程 中 引用 宏 变 量 用 双 引 号 ， 不 能 用 单 引号 。 

【 例 3.5】 通过 宏 过 程 实 现 取 出 符合 zone 条 件 的 数据 。 


libname jx 'dXx5 ”* 定 义 数据 集 存储 物理 路 径 的 逻辑 库 */ 
%let dir- 'd: jx cust.dat'; 族 外 部 数据 文件 的 路 径 */ 
filename fil "(&dir)"; 放 此 语句 指定 定义 逻辑 文件 名 */ 
* 先 对 外 部 数据 文件 处 理 ， 生 成 数据 集 cust; 

data cust; ”放生 成 数据 集 cust*/ 

infile fil; /x* 读 入 外 部 文件 */ 

input zone $ open count city $; 


mu 


run; 

* 对 cust 数据 集 二 次 处 理 ， 把 北京 和 青岛 两 个 城市 的 数据 取出 来 生成 数据 集 bj qd; 

%macro zone(v zone); EXB, RN zone*/ 

data jx.z &v zone;  /* ZEE z &v zone. v zone 的 值 数据 集 名 是 变化 的 */ 
set cust (where-(zone-"&v zone"); /*zone= AE OS NES BES/ 


run; 


%mend zone; 
%zone(1002); 


【程序 解读 】 
data jx.z_&v_zone; 数 据 集 名 字 为 变量 传递 过 来 的 命名 组 合 ， 是 变化 的 数据 集 名 。 
【 例 3.6】 综合 SQL 过 程 、 数 据 步 和 宏 过 程 3 部 分 ， 提 取 数 据 集 cust inf 符合 条 件 的 数据 。 


libname jxsj 'd:\jx'; 人 # 建 立 数据 存 储 位 置 的 逻辑 库 状 

proc sql noprint; /# 调 SAS 内 部 的 SQL 过 程 ，noprint 选项 告诉 SAS 不 打印 输出 ， 提 高 效率 */ 

FAEK SQL 语句 */ 

create table  jxsj.cust inf 

(id ^ char(6) label=! 客户 号 name varchar(10) label= 客户 姓名 '，tran dt — num 
format-is8601dt20. label=' 交 易 时 间 '， 

address varchar(100) label=' 交 易 地 点 ); 

quit /*SQL 过 程 的 结束 交互 标志 位 quit*/ 

proc sql noprint; 


insert into jxsj.cust inf (id,name,tran dt,address) 
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values (100001',' 杨 小 华 ''01APR2011:10:02:23'dt,' 北 京王 府 井 


insert 


values (10000 


insert 


values 


insert 


values 


insert 


values 


insert 


values 


quit; 


* 取 符合 条 件 的 交易 数据 ; 


%let 


%macro custsj(v_dt); 
%let vdt-9?osysfunc(putn(&sj,yymmddn8.)); 
data cust &vdt.; 

set jxsj.cust inf (where-(datepart(tran dt)» &s;j)); 


sj=%sysfunc(mdy(04,03,2012)); 


into jxsj.cust_inf (id,name,tran dt,address) 


[EN 
^ 


into jxsj.cust inf (id,name,tran dt,address) 


into jxsj.cust inf (id,name,tran dt,address) 
(100004', 3 /J f£  '04APR2012:09:16:36'dt,' | 
into jxsj.ust inf (id,name,tran dt,address) 


into jxsj.cust inf (id,name,tran dt,address) 


, 


H 73 '02APR2012:21:11:15'dt, JC 3i 
(100003, 刘 小 青 '"03APR2012:11:33:28'dt" 山 东 济 南 


(100005" 张 太 华 ,05APR2012:07:06:56dt' 天 津 百货 


P'EgX Ium, IANH A 
此 定义 宏 过 程 custsjj， 并 定义 宏 
PEST TR 


6 城 


" 


司 ); 


(100006', 董 小 峰 ',"06APR2012:22:08:21dt 山 东 济 宁 ); 


[E */ 
参数 v_dt*/ 
转换 ， 生 成 yyyymmdd 格式 */ 


Dr 


Pj 


BERZH cust 与 传递 


的 宏 变 量 的 组 合生 成 按 


期 的 数据 */ 


/*] 


tran date-datepart(tran dt); 


format 


run; 


%mend 


%custsj(&sj); 


【程序 解读 


1) proc sql noprint; 


tran date yymmdd10.; 


custsj; 
f**iJ 


EH 


宏 过 程 ， 并 传达 实 参 &sj*/ 


】 


HAREE, H 


N 


25r 


功能 已 经 封装 ， 用 户 


口 二 
ZN WJ 


就 可 以 


要 调 


输出 到 输出 窗口 


2) create table jxsj.cust inf (id char(6) label=' 客 户 号 ', name varchar(10) label=' 客 户 妈 
tran dt num  format-is8601dt20. label=' 交 易 时 间 ', address varchar(100) label- 22 7j f 
个 语句 为 SQL 语言 中 的 创建 表 语 句 ， 重 点 学 习 此 语句 中 的 时 间 字 
明 用 法 。“tran dt num  format-is8601dt20. 


间 的 变量 ， 定 义 为 num，format= is8601dt20. 定 义 了 此 变量 的 输 昌 


， 提 高 了 效率 。 


3) insert into jxsj.cust inf (idname,tran dt,address) 
values (100001',' 杨 小 华 ''01APR2011:10:02:23'dt,' 北 京王 府 井 百货 大 楼 "); 此 语句 为 SQL 38 


FP 插入 数据 到 
式 ，'01APR2011 


下 上 了 


EJ 


N 


变 


点 学 习 时 间 


表 的 语句 ， 习 FASIH 


:10:02:23'dt H 


FH 


语句 是 调 SAS 内 部 的 SQL 过 程 


label=' 交 易 时 间 '” 定 义 的 表 变 量 时 间 为 


期 时 间 值 后 面 的 dt 表示 为 
4) %let sj=%sysfunc(mdy(04,03,2012)); 此 语句 为 定义 宏 变 量 语句 ， 实际 


取 符合 where 条 件 


的 数据 */ 


。 此 过 程 是 SAS 系统 处 理 SQL 语言 


。noprint 的 选项 告诉 SAS 系统 不 打印 


EA 
也 点 ); 这 
段 的 定义 以 及 标签 的 定义 说 
日 期 + 时 


上 显示 格式 。 


标 表 cust inf 时 的 tran. dt 时 的 书写 方 
日 期 时 间 类 型 。 


发 中 为 了 应 用 灵 


活性 ， 经 常 改动 


的 变量 一 般 


j 先 定义 宏 变 量 的 方式 ， 


他 需要 引用 此 变量 的 地 方 只 需要 引用 


N 


4] 


处 理 日 期 函数 。 


5) %macro 
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RA, MEREANA] 
通过 =%sysfuncO 这 个 系统 宏 函 


用 此 变量 的 地 方 。 对 应 宏 变 量 如 果 需 要 调 内 部 的 宏 函 数 


mE | 
需要 先 


ER 
HJ 


数 才能 调用 SAS ZZ 


custsj(v_dt); 语 句 为 定义 宏 过 程 语句 ， 


的 宏 函 数 ,本 案例 中 引用 宏 函 数 mdy0 


%macor 宏 过 程 


星 定义 开始 标志 ，custsj 


为 


自己 定义 的 宏 过 程 名 ，v_dt 为 用 户 定义 的 宏 参 数 ， 在 引用 时 由 实 参 传递 给 


ES 
Z 


NN 


o 


6) %let vdt=%sysfunc(putn(&sj,yymmddn8.)); 此 语句 为 对 日 期 的 特殊 处 理 ， 函 数 putn0 把 


E, 


Æ Sj 


已 经 定义 的 宏 变 量 
表示 的 日 期 形式 。 


转换 为 数值 类 


7)data cust_&vdt.; 此 语句 为 宏 过 程 引 
可 以 看 出 这 个 数据 集 名 字 是 变动 的 ， 根 据 引 用 的 宏 变 量 
8) set jxsj.cust_inf(where=(datepart(tran_dt)>&3j)); 此 语句 为 数据 步 i 


POZ HJE jxsj 下 的 表 cust_inf。 注 


据 取 出 来 。 


9) tran_date=datepart(tran_dt); 数 据 步 中 直接 引入 了 


理 的 值 赋值 给 tran date. 


10) format tran date yymmdd10.;foramt i; 
【提示 1 该 案例 重点 学 习 SQL 过 程 中 日 期 时 间 的 处 到 


据 步 过 滤 条 件 where 的 应 用 。 
3.1.2 SET 语句 


SET 语句 


个 数据 集 进行 处 理 ， 可 以 对 多 个 数据 集 i 


集 动态 生成 机 制 处 理 数据 集 


E. f} 


EE, FAZY 


用 函数 datepart(tran db 取出 数据 集中 变量 


型 , 输出 格式 为 yymmddn8. 表 示 的 日 


的 数据 步 3 


期 格式 , 即 yyyymmdd 


于 始 语句 , 定义 的 数据 集 名 为 cust_&vdt， 


期 音 


& f &vdt 而 变动 。 


语句 ， Bt 


通过 set i 


吾 句 后 面 的 where 条 件 语 句 ， 在 条 件 过 滤 中 引 
tran dt 的 


分 ， 把 大 于 &sj 变量 的 日 期 的 数 


个 3 


吾 句 定义 变量 tran 


新 变量 , 把 datepart(tran db 函数 处 


ÍTR ih 


us 


个 观 涡 


iBik: SET 
功能 : 复制 


机 制 不 变 。 


对 应 项 


a 3-1 


SET 语句 功能 


说 明 
说 


_date 的 输出 格式 为 yymmdd10.。 
E 方 式 、 宏 变量 的 引用 、 宏 过 程 中 数 


在 数据 步 ， 从 一 个 或 几 个 已 经 存在 的 数据 集中 读 取 数据 ， 对 生成 的 一 个 或 多 
或 纵向 合并 。 在 读 取 数 据 集 
I 先 读 入 到 PDV 指针 中 ， 多 个 数据 集 需要 多 个 PDV 


时 严格 按照 数据 


< 数据 集 名 1> < 选项 > < 数据 集 名 2 > < 选项 >...; 
数据 集 或 纵向 合并 数据 集 。 


明 


SET SET 关键 


字 ， 实 现 复制 数据 : 


或 纵向 合并 


数据 集 


R 


数据 集 名 


指定 复制 或 合并 


的 数据 集 名 


选项 


如 keep= 取 保留 变量 、nobs= 变 量 名 ， 


记录 数据 


【提示 】 SET 语句 处 理 数据 及 
然后 输出 到 一 个 妆 
存放 空间 )， 直 到 数据 处 理 
个 副本 数据 集 。 


【 例 3.7】 对 例 3.1 数据 集 students 处 理 ， 


sex 和 address， 生 成 数据 集 stu。 


data stu; 


限时 是 先 对 原 数据 外 


原始 数据 集 。 


虹 读 取 ， 把 读 取 的 数据 逐条 放 到 PDV 中 
折 数 据 集 中 ， 占 用 了 两 个 存储 空间 (一 个 原 数据 
完成 ， 才 删除 SET 语句 处 理 


取 students 数据 集中 的 一 


set students (keep-name sex address obs-1); 


* set 语句 读数 据 集 students, 括 号 内 keep= 选 项 语句 取保 留 的 字符 ，obs=1 取 数 据 集 的 第 一 条 记录 */ 


run; 


集 的 总 观测 数 ， 赋 值 给 此 变量 


集 存放 空间 和 一 个 新 数据 集 
数据 集 的 过 程 中 产生 了 一 


条 记录 , 保留 字段 name、 
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【程序 解读 】 

set students(keep-name sex address obs-1 ) ;此 语句 用 在 数据 步 中 , 通过 SET 语句 读 取 已 经 
生成 好 的 数据 集 students。 此 数据 集 由 例 3.1 生成 ， 数 据 集 存储 在 work 临时 逻辑 库 中 ，set 语 
句 中 具有 的 选项 语句 需要 用 括号 括 起 来 。keep= 取 保留 的 字段 ， 实 际 应 用 开发 中 做 大 数据 量 尼 
数据 处 理 时 经 常 需要 此 语句 ， 把 需要 的 字段 从 数据 集中 取出 来 ， 从 而 提高 了 数据 读 取 的 效率 。 
obs=1 取 数据 集 的 第 一 条 观测 记录 。 

【 例 3.8】 数据 集 的 纵向 合并 ， 对 例 3.1 进行 改造 。 一 个 学 校 有 3 个 班级 ，3 个 班级 的 数 
据 集 分 别 为 stul 、stu2、stu3 ， 学 校 教务 处 需要 一 个 汇总 的 数据 集 sum_students 。 


上 每 一 位 数据 处 理 人 员 生 成 各 自 班 级 的 数据 六 
data stul (keep=name sex class address); 
PRIR stul*/ 
length address $30.; 
作对 应 字符 类 型 的 变量 其 长 度 超过 默认 长 度 8 个 字符 要 通过 length 语句 先 定 义 变量 */ 
input id name $ sex $ class address;/#* 定 义 变量 ， 其 中 address 为 length 语句 中 定义 好 的 变量 */ 
cards;/# 读 cards 后 的 数据 */ 
1001 高 溪 红 F1 北京 市 西城 区 广 外 大 街 
; 数据 块 结束 这 里 要 有 个 分 号 */ 
run; 
* 数 据 集 stu2; 
data stu2 (keep=name sex class address); 
length address $30.; 
input id name $ sex $ class address; 
cards;/* 读 cards 后 的 数据 */ 
1002 张 明 明 M2 北京 市 东城 区 


E 


run; 
* 数 据 集 stu3; 

data stu3(keep-name sex class address); 
length address $30.; 

input id name $ sex $ class address; 


cards; 
1003 刘 小 红 M2 北京 市 丰台 


Ix] 


run; 
* 汇 总 数据 集 sum students; 
data sum students; 
set stul stu2 ”stu3;/* 读 取 3 个 数据 集 ， 合 并 生成 数据 集 sum_students*/ 


run; 
【程序 解读 】 


本 案例 分 别 由 不 同 的 人 生成 了 3 个 班级 的 数据 集 ， 学 校 业 务 需 求 是 汇总 3 个 班级 的 数据 
R, ÆR sum students 数据 集 ， 属 于 数据 集 的 纵向 合并 。 语 句 “set stul stu2 stu3” 为 纵向 合并 
数据 集 语句 。 
让 语句 与 where 语句 在 SET 语句 中 的 应 用 与 比较 。 
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【提示 】 对 于 条 件 过 滤 数 和 


ERHI SAS JEF, if 和 where 语句 虽然 实现 的 功能 相同 ， 但 在 


效率 方面 ，where 语句 的 效率 最 高 ， 尤 其 是 大 数据 量 ， 更 能 看 出 where 语句 执行 的 时 间 远 远 小 
于 让 条 件 过 滤 执 行 的 时 间 。 


它们 的 区 别 如 下 : 


if 语句 过 滤 是 后 过 滤 ， 数 据 集中 数据 先 读 入 到 程序 数据 向 量 
缓冲 区 ， 然 后 再 判断 过 滤 。 
where 语句 是 把 数据 集中 的 数据 先 根 


通过 分 析 可 以 看 出 


, where 语句 


where 语句 过 滤 的 就 不 要 用 站 语句 过 滤 。 


【 例 3.9】 根据 条 伯 


HLHI o 


* 数 据 集 stu; 


data stu (keep=id name sex class ); 
length address $30.; 
input id name $ sex $ class address; 
cards; /*i€ cards 后 的 数据 */ 
1001 高 溪 红 F1 北京 市 西城 区 广 外 


1002 张 明 明 M 2 北京 市 东城 区 


E 


run; 


un 


*where 条 件 语句 实现 过 滤 取 数据 集 s 


data cz; 
set stu; 


where id-1001; 


run; 


data cz2; 
set stu; 
if  id-1001; 


run; 


【程序 解读 】 


*# 诈 条件 语句 实现 过 滤 取 数 和 


删除 数据 集 。 学 习 where Z4 


后 再 存 入 PDV 区 ， 最 终 放 入 到 数据 POV 缓冲 区 中 的 数据 是 条 件 ; 


PDV 中 ， 放 入 开辟 的 PDV 


据 where 条 件 进行 过 小, 把 符合 条 件 的 数据 取出 来 然 


名 断 完 的 数据 。 


的 效率 比 i£ 语句 的 效率 高 ， 


大 街 


tu 中 id=1001 这 条 数据 ; 


Ff TB RJS/ 


1) cz 数据 集 是 where 条 件 语句 生成 
2) cz2 数据 集 是 让 条 件 语句 生成 数据 集 。 
【提示 】 对 比 可 以 发 现 两 个 数据 集 cz 和 cz2 数据 一 样 ， 只 是 过 滤 条 件 语句 不 同 。 对 于 大 
数据 量 的 数据 处 理 才 能 明显 看 出 where 语句 的 优势 。 


【 例 3.10】 二 次 处 


* 文 件数 据 之 间 


/*where 条 件 语 句 */ 


EHE stu 中 id=1001 这 条 数据 ; 


的 数据 集 。 


理 数 据 集 ， 取 数据 集 的 第 一 条 记录 。 
分 隔 符 文件 读 取 ; 


%let dir= D:jxMq; 入 定义 外 部 文 伯 


%let gsm=.dat; 


%let filename- "&dir&gsm"; 
libname jx'diyjx' /定义 逻辑 库 %/ 


FEF 路径 */ 


F 语 句 与 让 条 件 语 句 的 过 滤 方 式 和 处 理 


因此 实际 开发 和 应 用 中 能 用 
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data jxdq; ”* 数 据 集 存储 到 指定 逻辑 库 */ 
Infile &filename dim=| dsd missover; 
人 # 此 处 用 dim- 分 隔 符 参数 读 取 分 隔 文件 六 
input quhao :$3. 
POENAE ME ENEE 38 8]^ ART EAER CRI 
youbian :6. 
address :$12. 


run; 
* 根 据 业 务 需 求 二 次 数据 处 理 ， 取 数据 集 第 一 条 记录 ， 其 他 输 
data jx.first dq jx.other dq; 


出 到 other dq; 


a 


set jx.dq; 
if n -1 then output jx.first_dq;/# 取 第 一 条 记录 输出 到 数据 集 jx.first dq */ 
else output jx.other dq; /# 不 是 第 一 条 记录 的 输出 到 数据 集 jx.other dq */ 


run; 


【程序 解读 】 
1)“if_n =1 ”条 件 语句 利用 了 SAS 内 部 的 记录 条 数 变量 指针 n, HC n =1 为 取 第 一 条 
记录 。 条 件 成 立 执 行 “then output jx.first dq” 语 句 ， 通 过 output 输出 到 数据 集 jx.first dq. 
2) "else output jx.ohter_dq” 表 示 当 让 语句 不 成 立时 执行 此 语句 , 输出 到 jx.other_dq 数据 集 。 
【提示 】 对 于 条 件 语句 过 ， 如 果 输 出 到 其 他 数据 集 一 定 要 加 output 语句 。 
【 例 3.11】 do…end 语句 在 数据 集 二 次 处 理 中 的 应 用 。 
* 文 件数 据 之 间 有 分 隔 符 文 件 读 取 ; 
%let dir- D:jxMq; /*xE XY NBOCTERRTE/ 
%let | gsm-.dat; 
%let filename= "&dir&gsm"; 
libname jx 'dWx; /*xESOPdHEET/ 


data jxdq; ”* 数 据 集 存储 到 指定 逻辑 库 */ 
Infile &filename dim=| dsd missover; 
人 # 此 处 用 dm= 分 隔 符 参数 读 取 分 隔 文件 六 
input quhao :$3. 
族 格 式 修饰 符 ":" 定 义 变量 ， 过 到 分 隔 符 此 列 读 取 结 束 */ 
youbian :6. 
address :$30. 


run; 
* 根 据 业 务 需求 二 次 数据 处 理 ， 取 数据 身 
data jx.doend; 


第 一 条 记录 ， 对 address 变量 进行 处 理 ; 


YAT 


set jx.dq; 
length v youbian $10.; 
if n-1 then do;/* 取 第 一 条 记录 */ 
v. youbian- JL 3t; 
address-' 1E 5t [X"'|trim(address); 
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/# 证 语句 中 do…end 语句 对 字段 处 理 */ 


end; 
else do; 


Vv_youbian=' 其 他 邮编 '; 
address=' 其 他 'trim(address); 


end; 
run; 


【程序 解读 】 


1) if iE ^] HE do…end 语句 ， 对 于 多 个 变量 的 处 理 需 要 放 在 do…end 语句 中 才 可 以 。 


2) else 里 语句 中 也 榴 套 了 一 个 do…end 语句 ， 处 到 
【提示 】 对 数据 集中 的 多 个 变量 ， 如 果 满 足 条 件 就 进行 特殊 处 理 ， 


end 语句 。do…end 语句 是 执行 语句 块 语句 ， 


3.1.3 ”MERGE 语句 


MERGE 语句 将 两 个 或 多 个 数据 集 进行 横向 合并 。 所 谓 横 向 合 3 
拼接 在 一 起 。 在 实际 应 用 中 可 能 一 个 表 的 数据 列 变 量 太 多 ， 可 以 把 数 所 
通过 MERGE 合并 ， 得 到 完整 的 数据 集 。 


多 个 变量 。 


语法 ， MERGE < 数据 集 名 1> < 选项 > < 数据 集 名 2 > < 选项 >...: 
功能 : 实现 数据 集 的 横向 合并 。 


表 3-2 MERGE 语句 说 明 


# 是 指 两 个 不 同 的 数据 集 
存储 在 两 个 数据 集中 ， 


需要 站 语句 中 骸 套 do… 
个 do 语句 都 对 应 一 个 end 结束 标志 语句 。 


对 应 项 LES 
MERGE MERGE 实现 数据 集 横向 合并 
数据 集 名 指定 合并 数据 集 名 字 
选项 常用 选项 ， 如 keep=、drop=、rename=、Wwhere=、in= 等 


【提示 】 MERGE 与 SET 语句 的 


或 多 个 数据 集 纵 向 合并 ，SET 语句 还 有 复制 数据 集 的 功能 。 


MERGE 语句 在 横向 合并 数据 集 时 分 为 一 对 一 合并 和 匹配 合并 两 种 。 


1) MERGE 一 对 一 横 


区 别 : MERGE 语句 实现 横向 合并 ; 


SET 语句 是 将 两 个 


名 合并 数据 集 : 所 谓 横向 合并 是 指 将 两 个 或 多 个 数据 集 拼 接 成 一 个 


数据 集 ， 将 两 个 或 多 个 数据 集中 的 第 一 条 观测 记录 合 3 


条 观测 记录 合并 成 新 数据 集 的 第 二 条 观测 记录 ， 依 次 类 推 ， 没 有 的 月 
2) MERGE 语句 匹配 合并 : 根据 BY 语句 指定 的 公共 变量 的 值 实现 横向 合 3 
语句 中 的 变量 相当 于 一 个 表 的 主键 ， 也 就 是 根据 主键 横向 合 # 


然后 再 进行 合并 。 


成 新 数 


居 集 的 第 一 条 观测 记录 ， 第 二 


HAE EH. 


。 此 处 的 BY 


， 要 先 对 公共 变量 进行 排序 ， 


[53.12] 学 生 信息 表 inf stu 为 学 生 信息 数据 集 ， 学 生成 绩 表 score stu 为 学 生 期 末 考 
试 成 绩 ， 根 据 需求 需要 得 到 一 个 学 生 信息 与 成 绩 的 数据 集 inf_score， 保 留 字段 为 id( 学 号 )、 


姓名 和 总 成 绩 。 


data inf stu; 


53 


length 


iy shy M 


address $30.; 


POSESISERIEZSTR AE EH HE EDGERGESIGA KJEE 8 个 字符 ， 要 通过 length 语句 先 定义 变量 */ 
input id name $ sex $ class address; 
FENZ, FEP address 为 length 语句 中 定义 好 的 变量 */ 
cards; [*3 cards. 后 的 数据 */ 
1001 高 溪 红 F 1 北京 市 西城 区 广 外 大 街 
1002 张 明 明 M2 北京 市 东城 区 
run; 
data score stu; 
input id score; 
cards; 
1001 600 
1002 890 
run; 
proc sort data-inf stu; POSPDRS SEHE S 
by id; 
run; 
proc sort data-score stu; POSPÉGS SEHE S/ 
by id; 
run; 
* 根 据 学 号 横向 合并 数据 集 inf stu 和 score stu， 生 成 数据 集 inf score; 
data inf score (keep-id name score); /*keep= 语 句 取保 留 字 段 */ 
merge inf stu score stu; 
by id; PARARE RAJ 
run; 
【程序 解读 】 


1) MERGE 语句 横行 合并 时 要 先 对 两 个 数 
集 根据 学 号 id 按 默 认 升序 排序 。 


居 集 排序 。 此 程序 通 


过 SAS 的 sort 过 程 对 数据 


2) “merge inf stu socre_stu” 语 句 根 据 id 合并 数据 集 。 
【 例 3.13】 MERGE 语句 查找 两 个 数据 集中 相同 的 数据 。 
data stul; 
length address $30.; 
必 对 应 字符 类 型 的 变量 的 长 度 超过 默认 长 度 8 个 字符 要 通过 length 语句 先 定义 变量 */ 
input id name $ sex $ class address; /# 定 义 变量 ， 其 中 address Jy length 语句 中 定义 好 
的 变量 */ 
cards; /*iX cards 后 的 数据 */ 
1001 高 溪 红 F 1 北京 市 西城 区 广 外 大 街 
1002 张 明 明 M 2 北京 市 东城 区 
run; 
data stu2; 
length address $30.; 
PIERKA RREKET KE 8 个 字符 ， 要 通过 length 语句 先 定义 变量 */ 
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input id name $ sex $ class address; /# 定 义 变量 , 其 中 address 为 length 语句 中 定义 好 
的 变量 */ 
cards; /*i€ cards 后 的 数据 */ 
1001 高 溪 红 F1 北京 市 西城 区 广 外 大 街 
E Z 
rtr 


1003 杨 小 红 M3 北京 市 丰台 区 
RUN; 
data ^ public; 
merge stul(in-a) stu2(in-b); /*WJHj SAS 系统 的 内 部 in= 变 量 ， 标 识 信息 来 自 哪个 数据 集 */ 
ifaandb ; /# 条 件 a and b 表示 查找 数据 ， 即 在 stul 数据 集 也 在 stu2 数据 集 的 公共 数据 */ 
by id; IRIE id 比 对 */ 
run; 


【程序 

i ago 吾 句 中 利用 SAS 系统 的 内 部 in= 变 量 ， 标 识 信息 来 自 哪 个 数据 集 ， 根 据 条 件 
ifaandb 查找 出 两 个 数据 集 的 公共 部 分 。 

2) *by id” 语 句 是 必需 的 ， 告 诉 MERGE 语句 根据 id 匹配 查找 。 

【 例 3.14】 对 例 3.13 进行 改造 ，MERGE 语句 查找 两 个 数据 集中 不 同 的 数据 。 


data other; 
merge stul(in-a) stu2(in=b); 。 # 利 用 SAS 系统 的 内 部 in= 变 量 ， 标 识 信 息 来 自 哪个 数据 集 */ 
if ^aand b; /#* 条 件 ^a and b 表示 查找 数据 不 在 stul und 4E, 1E stu2 数据 集 的 数据 */ 
by id; /# 根 据 id 比 对 */ 
run; 

【 程序 FHRS] 


“证 ^a and b ;” 语 句 中 ^a 表示 条 件 为 不 在 stul 数据 集 ，b 表示 在 数据 集 stu2 PRI 
找 出 两 个 数据 集中 的 不 同 数据 。 


3.2 数据 集 应 用 案例 


灵活 运用 数据 步 才能 综合 处 理 各 类 数据 。 实 际 开发 中 根据 业务 需求 需要 对 各 类 数据 综合 
处 理 ， 而 不 是 单独 的 ， 简 单 的 数据 处 理 。 


3.2.1 数据 集 条 件 过 滤 


在 实际 开发 中 经 常 遇 到 各 类 数据 文件 ， 而 不 是 CARDS 语句 或 DATALINES 语句 块 数据 。 
因此 ， 学 习 SAS 对 各 类 数据 文件 过 滤 的 方法 是 数据 处 理 的 关键 点 。 本 节 通 过 几 个 经 典 的 案例 
进行 详细 的 讲解 和 分 析 。 

【 例 3.15】 @ 指 针 应 用 
d: yx 'custer.dat. 


IR 
I". 


过 滤 数 据 控制 。 取 出 卡 类 型 为 138 的 数据 ， 数 据 文件 存储 在 


Volet dir= 'd:\jx\custer.dat'; 
filename sj "(&dir)"; 
libname jx — 'd\jx'; 
data jx.card138; 
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infile sj dsd missover; 
input @20 card type $3. 
Q; 必 行 控制 指针 符号 ， 使 数据 取 到 card type ZAHRÁT FIBI ifie), (ORI 
if card type-138' then do;  /*H&card type='138' 类 型 的 条 件数 据 */ 
input @l1 qh $3. 

@4 cardnm $16. 

@23 name $8. 

@31 address :$20. 


E 


output jx.card138; /*output 语句 把 取出 的 数据 输出 到 此 数据 集 */ 


end; 
run; 
【程序 解读 】 


重点 理解 过 滤 条 件 语句 中 行 控 制 指针 @ 的 应 用 。“input @20 card type. $3. @;” 3X 
条 语句 先 取 外 部 数据 文件 custer.dat 中 的 card. tyep 列 对 应 的 数据 , 取 到 之 后 行 控制 指针 @ 使 其 
指针 停留 在 当前 行 ， 执 行 后面 的 “if card_type='138' then do;” 条 件 判断 语句 ， 把 符合 此 条 
件 的 这 条 记录 对 应 的 数据 的 其 他 列 信息 取出 来 ， 然 后 返回 上 面 的 “input @20 card type 
$3. @;” 语 句 继续 执行 取 其 他 行 数据 ， 并 做 判断 。 

【提示 】 这 个 程序 经 常用 到 。 实 际 的 开发 中 遇 到 一 个 文件 有 上 百 万 条 数据 是 常见 的 ， 为 
提高 程序 的 效率 ， 先 对 文件 进行 过 滤 ， 只 取 符 合 条 件 的 数据 ， 而 不 是 一 开始 就 把 外 部 数据 文 
件 转换 成 SAS 数据 集 再 进行 过 滤 ， 这 是 不 可 取 的 一 种 方式 。 虽 然 也 能 实现 相同 的 功能 ， 但 效 
率 低 ， 需 要 很 长 的 时 间 。 

【 例 3.16】 删除 数据 集中 不 需要 的 数据 ， 对 例 3.15 进行 改造 ， 册 
建立 数据 集 other138。 

Volet dir= 'd: jx custer.dat'; 
filename sj "(&dir)"; 
libname jx  'dx; 
data jx.other138; 
inflle — sj dsd missover; 
input (220 card type $3. 

@; 改行 控制 指针 符号 ， 使 数据 取 到 card type 之 后 执行 下 面 的 让 语句 ， 做 判断 */ 
if card type-138' then delete;/* delete 删除 语句 删除 138 对 应 的 数据 行 */ 
if card type^-138' then do; /* 取 card_type='138' 类 型 的 条 件数 据 */ 

input (àl qh $3. 
@4 cardnm $16. 
@23 name $8. 
@31 address :$20. 


5 
E 


卡 类 为 138 的 数据 ， 


output — jx.other138; 
end; 
run; 
【程序 解读 】 
此 程序 通过 “if card type-'138' then delete;” 语 句 先 执行 删除 符合 条 件 的 数据 ， 然 后 执 
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fT "if card type^-138' then do;” 语 句 ， 把 不 是 138 的 数据 取出 来 ， 执 行 do…end 语句 输出 
其 他 列 数据 。 

【提示 】 让 语句 中 可 以 执行 删除 语句 ， 直 接 删 除 就 可 以 。 

【 例 3.17】 对 于 有 文件 头 信息 的 ， 从 文件 中 的 第 二 条 数据 开始 读 取 ， 通 过 


5E 
E 
E 
2 
NL 


%let dir= 'd:\jx\inf_cust.dat';/* 文 件 存 储 路 径 宏 变 量 */ 
filename sj “"(&dir)";/* 定 义 逻 辑 文件 名 */ 
libname csj  'dNx':# 定 义 存储 数据 集 逻 辑 库 交 
%macro loadfile(v lib); /# 宏 过 程 开 始 ， 并 定义 安 变量 %/ 
data &v lib.inf custer; 
Infile sj firstobs-2 end=final length-length; /*firstobs-2 表示 从 文件 的 第 二 条 数据 */ 
庶 开 始 读 取 */ 
input @1dqh 3. 

(4 card nm $16. 

@20 card type $3. 

@23 name $8. 

@31 address :$20. 


, 


run; 
%mend; 
%loadfile(csj.); FW] FIR, MAKSE EEA, IEXOXHSOATMOPSHEESZJUWT.* 
【程序 解读 】 


宏 过 程 loadfile 中 “infile sj firstobs=2 end=final length=length” 语 句 中 的 firstobs=2 表示 从 外 
部 文件 的 第 二 条 记录 开始 读 取 。 对 于 有 文件 头 信息 的 需要 用 此 程序 的 方法 读 取 外 部 文件 。 

【 例 3.18】 模糊 查询 条 件 的 宏 应 用 。 通 过 SAS 系统 内 部 的 宏 变 量 参 数 ， 实 现 查 找 北 京 、 
上 海 和 属于 山东 省 的 城市 对 应 的 数据 ， 生 成 数据 集 city. 


data city inf, 
length city $30.; 
input id city $; 
cards; 

1001 上 海 市 南京 路 
1002 北京 西城 区 
1003 上 海 市 浦东 区 
1004 天 津 滨 海 新 区 
1005 北京 东城 区 
1006 山东 济南 
1007 山东 济宁 
1008 北京 市 丰台 区 


run; 

/* 通 过 宏 indexs 实现 模糊 查找 */ 

%macro ”indexs /parmbu 仁 ”人 # 通 过 宏 系统 的 内 部 参数 宏 变 量 parmbuff 接收 传递 的 变量 信息 */ 
%local num dsname; /定义 局 部 变量 头 
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%let IAEA RS 

Volet dsname-?oscan(&syspbuff,&num); 
/# 把 parmbuff 的 信息 传递 给 
/# 这 里 num=2， 从 syspbuff 变量 的 第 二 个 变量 
%do 


num=2; 


%if &num>2 
or 
%end; 
index(%scan(&syspbuff,1),"&dsname")>0 
%let num=%eval(&num+1); 
%let 
%end; 


%mend ; 


%then %do; 


dsname=%scan(&syspbuff,&num); 


data city; 

set city inf, 

where ”%indexs(city, 北 京 ,上 海 ,山东 ); 

/调用 宏 indexs， 模 糊 查 询 city 变量 为 北京 、 上 海 


run; 


proc print data-city; 


run; 
输出 窗口 显示 信息 如 图 371 所 示 。 
E dB - 


(无 标题 ) 


BEER 
IHAA 


图 3-1 


%while(%quote(&dsname) ne %quote()); 


/*num 变量 加 1*/ 


宏 系 统 内 部 宏 变 量 syspbuff, scan 函数 实现 查找 功能 ，*/ 


开始 查找 */ 
/# 判 断 循环 语句 ， 如 果 变 量 dsname 不 为 空 */ 


证 从 第 一 个 变量 查找 ， 搜 索 dsanme 变量 的 位 置 */ 


/从 第 num 位 查找 ， 


负责 给 dsname*/ 


和 属于 山东 省 的 城市 的 数据 */ 


查找 信息 显示 


日 志 显示 where 条 件 后 的 信息 为 生成 了 3 个 条 件 的 或 语句 ， 如 图 3-2 所 示 。 


(无 标题 ) 
Slet dsname-3scan(&syspbuf f , &num) ; A 


Send; 
Smend ; 


data ns 
set city. 
where (city, 北京 ,上 海 ,山东 ); 


run; 


: 从 数据 集 WORK.CITY INF. 读 职 了 7 个 观测 


WHERE CINDEX(city, "AER 0) 
: WORK.CITY 有 7 个 观测 和 2 
: DATA 语句 ” 所 用 时 间 í HERD : 
实际 时 间 E: 
CPU 时 间 


24. 


Hf 928 dsnames/ 


or nex (city, "ER 0) or CINDEXCcity, ' 


【程序 解读 】 
本 程序 通过 编写 indexs 宏 过 程 和 SAS 系统 内 部 宏 变 量 的 应 用 以 及 宏 函 数 结合 的 应 用 ，, 实 
现 模糊 查找 。 
对 上 面 的 模糊 查找 也 可 以 写 SQL 语句 实现 ， 只 是 这 种 方式 不 简便 ， 需 要 写 很 多 语句 。 对 
例 3.18 通过 SQL 语句 实现 同样 的 功能 。 
【 例 3.19】 通过 SQL 语句 实现 模糊 条 件 查 找 ， 对 例 3.18 进行 改造 。 


PROC sql; /#* 调 SQL 过 程 */ 
select * from — city inf where city like '% 北 京 %' or city like '% 上 海 %' or city like % 山 东 %'; 
P*where 条 件 中 city like 语句 查找 出 city 办 理 包 含 北京 或 上 海 或 属于 山东 的 城市 */ 
quit; 
【程序 解读 】 
where 条 件 中 like 语句 实现 模糊 查找 , 其 中 % ( 百 分 号 ) 表示 任意 字符 。 例 如 ,，“% 北 京 %” 
表示 不 管 “ 北 京 ” 前 面 和 后 面 是 什么 字符 ， 只 要 包含 “北京 ”就 符合 条 件 。 
【 例 3.20】 根据 条 件 ， 实 现 多 个 数据 集 用 同一 个 宏 过 程 进 行 打 印 的 功能 。 


data city infl; 
length city $30.; 
input id city $; 
cards; 

1001 上 海 市 南京 路 
1002 北京 西城 区 
data city inf2; 
length city $30.; 
input id city $; 
cards; 

1003 上 海 市 浦东 区 
1004 天 津 滨海 新 区 
data city inf3; 
Length city $30. 
input id city $; 
cards; 

1005 北京 东城 区 
1006 山东 济南 
1007 山东 济宁 
1008 北京 市 丰台 区 


data custer; 
input id name $; 
cards; 
1001 刘 小 红 


, 


run; 


59 


族 实现 数据 集 的 打印 功能 ， 可 以 传递 多 个 数据 集 */ 


%macro printz/parmbuff; 


%put Syspbuff contains: &syspbuff;， 信 系统 内 部 宏 变 量 syspbuff 记录 了 dsanme 变量 的 信息 */ 


%let num-l; 

%let dsname=%scan(&syspbuff,&num); 

%do %while(&dsname ne); 
proc print data-&dsname; ”/* 打 印 数据 集 名 dsname 宏 变 量 对 应 的 数据 集 */ 
run; 
%let num=%eval(&num+1); FREH 1 取 下 一 个 数据 集 的 名 字 */ 
%let dsname=%scan(&syspbuff,&num); 

/# 从 第 num 变量 开始 查找 并 把 查找 到 的 内 容 赋值 给 变量 dsanme*/ 
%end; 


%mend printz; 


PF FIEGSERS printz， 传 递 数据 集 名 实 参 city_infl,city_inf2,city_inf3,custer 给 SAS 内 部 宏 变 
parmbuff*/ 
Voeprintz(city infl,city inf2,city inf3,custer); 
【程序 解读 】 


这 个 程序 主要 学 习 SAS 系统 内 部 宏 变量 parmbu 人 ff 和 syspbuff 两 个 内 部 宏 变量 的 联合 应 用 


的 功能 ， 实 现 根据 循环 条 件 取 数 据 集 名 ， 同 时 应 用 SAS 系统 内 部 函数 ， 实 现 了 强大 功能 


封装 。 
3.22 CALL 子 程序 数据 步 应 用 
【 例 3.21】 CALL 子 程序 数据 步 应 月 


au 
o 


%macro callpro(v param); 
data null ; 
x ='we are friends"; 
Zz-&v param; 
call symput(v. var',x);/*38 x 变量 数据 赋值 给 变量 v var*/ 
%mend  callpro; 


Vocallpro(1) 
run; 
/* 上 面 CALL 子 程序 语句 中 的 变量 v_var 在 下 面 引用 */ 
data temp; 
y-"&v var; ，/* 引 用 上 面 的 变量 v_var*/ 
run; 


proc print data=temp; 


run; 
【程序 解读 】 


1) 通过 CALL 子 程 序 调 symput 函数 ， 把 X 变量 值 赋值 给 v_var。 
2) 下 面 的 data temp; y="&v_vVar"; 数 据 步 引用 宏 变 量 值 给 数据 步 y 变量 
【 例 3.22】 条 件 语 句 中 执行 CALL 子 程序 案例 。 


o 


data cust inf, 
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Es 


的 


input dept $name $ salary @@; 
datalines; 
BI 高 明 18000 gov 刘 小 红 16000 
pulic 董 小 云 9000 private 马 西 名 8000 


proc means data-cust inf noprint; 
class dept; 
var salary; 
output out-analy sum-s salary; 
run; 


proc print data-analy; 
var dept s salary; 
tite "统计 信息 "; 
title2 "对 部 门 统计 分 析 "; 
run; 
ME 条 件 语句 调 call 子 程序 的 应 用 */ 
data null ; 
set analy; 
if n-1 then call symput('s total,s salary); /* 条 件 满足 执行 call 子 程序 语句 */ 
else call symput('v_str',dept); 


run; 
data ana temp; 
v total-&s total; ”人 # 引 用 call 语句 中 的 变量 s_total*/ 


run; 
【程序 解读 】 


1) 理解 数据 步 计 条 件 语 句 调 call 子 程序 的 运用 。 
2) *if n -1 then call symput('s total's salary);else call symput(v_str,depb;” 语 句 在 数据 步 
处 理 变量 的 赋值 传递 ， 条 件 满足 传递 给 一 个 新 变量 。 


3.2.3 ”数据 集 输 出 应 用 


数据 集 输出 是 对 数据 步 处 理 数据 后 生成 的 数据 集 。 数 据 集 输出 按 输出 逻辑 库 划分 分 为 输 
出 到 临时 逻辑 库 和 输出 到 永久 逻辑 库 。 如 果 数 据 集 处 理 的 结果 只 是 供 临时 应 用 ， 可 以 将 数据 
集 输 出 到 临时 逻辑 库 ， 从 而 节省 了 存储 空间 ， 如 果 数 据 集 需要 永久 保留 就 要 将 数据 处 理 结 
输出 到 永久 逻辑 库 。 

1. 输出 数据 集 到 临时 逻辑 库 

语法 格式 ， [逻辑 库 名 ]. 数 据 库 名 。 

【说 明 】 SAS 系统 数据 集 输 出 到 临时 逻辑 库 默 认 是 work 逻辑 库 ， 逻 辑 库 名 可 以 省 略 。 直 
接 写 数 据 集 名 就 可 以 。 

【 例 3.23】 数据 集 输出 到 临时 逻辑 库 work 库 。 


* 数 据 集 输出 到 临时 逻辑 库 ， 人 逻辑 库 名 work 可 以 省 略 ， 默 认 是 到 临时 逻辑 库 ; 
data work.custers;/* 数 据 集 custers 输出 到 临时 逻辑 库 work*/ 


LC 


= 


6l 


input dept $ name $ salary @@; 
datalines; 

BI 高 明 18000 gov 刘 小 红 16000 

pulic 董 小 云 9000 private 马 西 名 8000 


, 


run; 
【程序 解读 】 


数据 步 输出 数据 集 到 临时 逻辑 库 work F, 其 逻辑 库 名 可 以 省 略 。 此 程序 数据 集 custgers 
生成 到 work 逻辑 库 下 。 
【 例 3.24】 一 个 数据 步 根据 条 件 生 成 多 个 数据 集 到 临时 逻辑 库 work 库 。 


* 定 义 3 个 数据 集 ， 输 出 到 临时 逻辑 库 ; 
data custbi custpulic custother ; /* 数 据 集 custbi custpulic custother*/ 
Input dept $ name $ salary @@; 
if dept eq 'BI then output custbi; 
AiE ER, TEASER] dept 判断 ，output 语句 后 面 为 输出 到 数据 集 名 */ 
else if dept eq pulic then output custpulic; 
P*pulic 部 门 的 输出 到 数据 集 custpulic*/ 
else output custother; /# 把 其 他 部 门 输出 到 数据 集 custother*/ 
datalines; 
BI 高 明 18000 gov 刘 小 红 16000 
pulic 董 小 云 9000 private 马 西 名 8000 


, 


run; 
【程序 解读 】 


1) 数据 步 语句 “if dept eq BI'then output custbi;” 表 示 如 果 dept 变量 的 值 为 “BI”, 输 
出 数据 集 到 custbi。 

2) 数据 步 语句 “else if dept eq 'pulic' then output custpulic; ”表示 如 果 dept 变量 的 值 为 
“pulic”， 输 出 数据 集 到 custpulic。 

3) 数据 步 语句 “else outputcustother;" 表示 如 果 上 面 两 个 条 件 都 不 成 立 ， 输 出 数据 集 
到 custother。 

【提示 】 对 datalines 语句 块 进行 数据 处 理 时 ， 如 果 需 要 条 件 语 句 必须 把 条 件 语句 写 在 
input 语句 与 datalines 语句 之 间 。 

对 于 infile 语句 读 入 外 部 数据 文件 ， 其 条 件 语句 放置 的 位 置 与 例 3.24 是 不 同 的 。 

【 例 3.25】 infile 语句 读 入 外 部 文件 ， 根 据 条 件 生成 多 个 数据 集 到 临时 逻辑 库 。 


Volet dir= 'd: jx custer.dat'; 
filename sj "(&dir)"; 
data custl38 othercust; /*5E XAAR cust138 和 othercust*/ 
infile sj dsd missover,  /*iE/ XE TES/ 
input (Ql qh $3. 
(Q4 card nm $16. 
@20 card type $3. 
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@23 name $8. 
@31 address :$20. 
if card type-'138' then output cust138; 
/* 让 条 件 语句 card type='138' 数 据 输 出 到 cust138 数据 身 
else output othercust; 


/# 其 他 card type 不 是 '138' 数 据 输出 到 othercust 数据 集 */ 


N 


y 


put 


run; 


【程序 解读 】 
1) “if card type='138' then output cust138;” 语 句 表示 card. type 为 '138' 的 输出 到 数据 集 


cust138. 
2) “else output othercust; ”语句 表示 card type 不 为 '138' 的 输出 到 数据 集 othercust。 


【提示 】 对 比例 3.24 和 例 3.25， 读 入 语句 块 和 读 入 外 部 文件 让 语句 放 的 位 置 的 不 同 。 
2. 输出 数据 集 到 永久 逻辑 库 

对 应 数据 集 输 出 到 永久 逻辑 库 需 要 先 创建 永 久 逻 辑 库 ， 然 后 通过 数据 步 引用 永久 逻辑 库 

名 把 相应 的 数据 集 存 储 到 指定 的 物理 路 径 下 。 

引用 永久 逻辑 库 方 式 : 永久 逻辑 库 名 .数据 集 名 。 

对 应 永久 逻辑 库 首 先 要 定义 永久 逻辑 库 ; 
Libname 逻辑 库 名 物理 路 径 ; 
【 例 3.26】 将 例 3.25 生成 的 数据 集 存储 到 物理 路 径 为 dx 的 文件 夹 中 。 


Volet dir= 'd: jx custer.dat'; 
filename sj "(&dir)"; 
libname jx  'dXjx5 /定义 永久 逻辑 库 jx*/ 
data jx.custl38 jx.othercust; 。/* 数 据 步 引用 永久 逻辑 库 jx*/ 
infile sj dsd missover; 
input @1 qh $3. 
(Q4 card nm $16. 
(20 card type $3. 
(223 name $8. 
(231 address :$20. 


if card type-'138' then output jx.cust138; 
/# 证 条 件 语句 card_type='138' 数 据 输出 到 jx.cust138 žit 
else output jx.othercust; 
/# 其 他 card type 不 是 '138' 数 据 输出 到 jx. othercust 数 ] 
run; 

【程序 解读 】 

1) "if card type-138' then output jx.cust138; ”语句 表示 符合 条 件 card. type 为 138 的 输 
出 到 永久 逻辑 库 jx 所 对 应 的 物理 路 径 下 ， 数 据 集 名 为 cust138 。 
2) “else output jx.othercust ”语句 表示 card type 不 为 '138' 的 输出 到 永久 逻辑 库 jx 所 对 应 


的 物理 路 径 下 ， 数 据 集 名 为 othercust。 


vint 
* 
i 


L 


* 


Ef 


— 


已 


= 
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3.2.4 数据 集 加 密码 应 用 


实际 开发 中 对 应 重要 的 数据 需要 生成 加 密 数据 集 ， 防 止 数据 在 传输 过 程 中 被 截获 而 泄露 
数据 信息 。 数 据 集 加 密 是 从 数据 安全 的 机 制 考虑 。 使 用 数据 集 的 一 方 需要 知道 解密 密码 才 可 
以 应 用 数据 集 。 

【 例 3.27】 对 生成 的 a 数据 集 加 密 ， 写 密码 为 “ycr”， 另 一 用 户 更 新 时 会 弹出 输入 密码 
窗口 。 


谨 对 数据 集 加 密码 ， 其 他 用 户 如 果 不 知道 密码 就 只 能 读 不 能 更 新 写 操作 表 */ 
data ”a(write=ycr);/* 对 创建 的 数据 集 a 通过 write= 语 句 加 入 密码 为 “ycr”*/ 
input x; 


cards; 
1 
2 
3 
run; 
proc ”sql;/* 调 用 SQL 过 程 */ 
update a setx=0 where x=2; 
quit; /*SQL 过 程 对 应 结束 标志 quit*/ 
【程序 解读 】 
1) 数据 步 语句 “DATA a (write=ycr)” 表 示 对 数据 集 a 通过 write= 语 句 创建 加 密 写 密码 
ycr， 其 他 用 户 如 需要 更 改 此 数据 集 a， 必 须 输入 密码 。 
2) SQL 过 程 步 中 update 语句 更 新 a 数据 集 ， 执 行 后 会 弹出 如 图 3-3 所 示 的 交互 对 话 框 ， 
需要 用 户 输 入 密码 才能 更 新 a 数据 集 。 


| 缺失 SAS 密码 


WRITE 访问 被 拒绝 。 请 输入 文件 WORKA.DATA 的 密码 。 


确定 


图 3-3 ”输入 密码 对 话 术 


【 例 3.28】 对 例 3.27 进行 改造 ， 更 新 数据 集 时 防止 出 现 交 互 对 话 框 ， 直 接 把 密码 写 在 更 
新 语句 中 。 
proc sql;/# 调 用 SQL 过 程 */ 
update a (write=ycr) setx-0 where x=2; 
/*update 语句 中 a 数据 集 加 入 选项 write=ycr， 告 诉 SAS 系统 更 新 密码 权限 */ 
qui;  /*SQL 过 程 对 应 结束 标志 quit*/ 
【程序 解读 】 
语句 “updata a (write=ycr)” 直 接 写 入 密码 选项 参数 ， 这 样 避免 了 交互 对 话 框 的 弹出 ， 直 
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IHI 


接 告诉 SAS 系统 更 新 权限 密码 。 
3.3 ”外 部 数据 处 理 案例 


应 用 中 实际 的 数据 处 理 大 多 数据 都 是 外 部 数据 文件 ， 如 各 类 文本 


文件 、 主 机 数据 文件 、 


各 类 数据 库 数 据 等 外 部 数据 , 而 不 是 cards 语句 或 datalines 语句 后 面 的 
形式 。 因 此 学 习 本 节 外 部 数据 文件 处 理 的 方法 和 技巧 是 实际 开发 和 应 
型 项 目的 开发 ， 数 据 量 都 是 在 百 万 级 以 上 ， 对 外 部 数据 处 理 的 优 务 直 
率 。 对 外 部 数据 处 理 的 过 程 称 为 ETL xtfr OR 
据 仓 库 开 发 的 核心 。 


3.3.1 TXT 文 件数 据 处 理 


EADIE, FEIR). ETL 过 程 是 


语句 块 形式 出 现 的 数据 
用 的 需要 。 对 于 一 个 大 
接 影响 到 整体 系统 的 效 
大 型 数 


TXT 格式 文件 是 经 常见 到 的 文本 文件 。 以 .txt 为 扩展 名 存储 的 文 伯 
【 例 3.29】 读 取 di:\jx\xs.txt 文件 ， 创 建 数据 集 xs。 


E 
dir= D: jx s; 


昌 按 列 模式 读 取 ; 
SENSER CAF EAE 


* x 
9 olet 
9 olet 
9 olet 
libname jx 'd:\jx'; 


gsm-.txt; 

filename = "&dir&gsm"; 

放 定 义 逻 辑 库 */ 

此 数据 集 存储 到 指定 逻辑 库 */ 

infile &filename dsd missover ;/*infile 语句 读 入 外 部 文件 
bh 1-10 ，” 必 列 模式 读 取 数 ] 
xm $ 11-18 

mobile 19-29 

dx $30-41 


data jx.xs; 


* 


— 


input 


run; 


【程序 解读 】 
1) infile 语句 读 入 逻辑 名 filename 对 应 物理 


位 置 处 的 数据 文件 


居 ， 从 第 一 列 到 第 10 列 为 bh 变量 对 应 的 数 拉 


E, KH TXT 格式 文件 。 


届 */ 


F d:\JX\Xs.txt。 


2) input 语句 定义 变量 ， 数 据 文件 中 每 一 列 对 应 一 个 变量 ， 相 应 列 的 数据 存储 到 对 应 变 
mH, 
35 此 处 通过 列 模 式 读 入 变量 对 应 的 数据 ， 列 开始 位 置 到 列 结束 位 置 。 
【提示 】 对 应 上 面 的 程序 也 可 以 通过 绝对 指针 方式 和 列 模式 两 种 方式 混合 应 用 读 入 外 部 
数据 文件 。 
【 例 3.30】 对 例 3.29 进行 改造 ， 通 过 绝对 指针 和 列 混 合 模式 两 种 方式 同时 运用 读 入 外 部 
数据 文件 。 
* 文 件数 据 按 列 模式 读 取 ; 
%let dir= D:\jx\xs; 人 # 定 义 外 部 文件 路 径 % 
Volet gsm=.txt; 
%let filename = "&dir&gsm"; 
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libname jx 'dx; /*xESOPdRHEEU/ 
data jx.xsjd;”/* 数 据 集 存储 到 指定 逻辑 库 */ 


infile &filename dsd missover ; 


input @1 bh 10. /x* 绝 对 指针 @ 模 式 读 取 数 据 */ 
xm $11-18. 必 列 模式 读 取 数 据 装 
(219 mobile 11. 
(930 dx $12. 
run; 
【程序 解读 】 
1) input 语句 中 定义 变量 ， 通 过 @ 指 针 控 制 列 开始 位 置 ,“@ 列 开始 位 置 变量 名 变量 类 


3 
20 此 程序 用 了 两 种 方式 读 外 部 数据 ， 语 名 “xm $11-18” 列 模式 读 入 外 部 数据 文件 对 应 


列 的 数据 。 
3.3.2 “Excel 数据 处 理 


Excel 文件 也 是 实际 开发 中 经 常 遇 到 的 一 类 文件 。 对 于 Excel 生成 这 类 外 部 数据 文件 ， 一 
般 的 思路 是 先 通过 SAS 过 程 步 中 的 IMPORT 过 程 生 成 SAS 可 以 识别 的 数据 集 ， 然 后 再 根据 
需求 对 生成 的 数据 集 进 行 处 理 ， 生 成 SAS 可 以 识别 的 数据 ， 运 用 数据 步 和 SAS 函数 ， 根 据 需 
求 对 字段 进行 处 理 。 

【 例 3.31】 导入 Excel 数据 djx\house.xls， 生 成 SAS 数据 集 ， 并 取 数 据 集 的 9 条 记录 。 


* 通 过 IMPORT 过 程 读 取 外 部 Excel 文件 建立 数据 身 
libname jx 'd:x* 
proc import out=jx.house /* 输 出 的 数据 集 名 */ 
datafile="d:\jx\house.xls"; 
必要 导入 的 Excel 文件 的 完整 路 径 与 文件 名 ， 写 清楚 文件 的 扩展 名 */ 
sheet-"fz"; /* 指 出 电子 表格 中 的 那 一 个 表单 ， 就 是 表单 名 字 */ 
getnames- YES; ”/* 指 出 第 一 行 是 否 有 字段 名 */ 
run; 
放 数 据 集 二 次 处 理 */ 
data jx.house9; 
set jx.house(obs-9); /*obs-9 选项 参数 指定 取 数 据 集 前 9 条 记录 */ 
run; 
【程序 解读 】 
1) import 过 程 导入 外 部 数据 ，out= 选 项 指定 输出 数据 
2) datafile= 指 定 外 部 数据 文件 路 径 。 
3) sheet= 选 项 指定 导入 电子 表格 中 的 那个 表单 。 
4) getnames= 选 项 指定 第 一 行 是 否 有 列 名 ， 有 为 YES， 否 则 为 NO. 
数据 步 对 数据 二 次 处 理 ，obs=9 取 数 据 集 前 9 条 记录 。 
【提示 】 datafile 和 table 不 能 一 起 用 ， 如 果 指 定 是 哪 张 表 单 可 以 用 range= 或 sheet= 选 项 
语句 ， 不 要 用 table=。 
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Tur 


mr 


， 对 这 类 文件 数据 转换 生成 SAS 


Tr 


实际 开发 中 经 常 遇 到 放 在 同一 个 文件 夹 下 的 同一 类 文 伯 
数据 集 可 以 通过 宏 过 程 批量 读 入 。 
【 例 3.32】 EX di\jx\ty 文件 夹 下 的 所 有 Excel 文件 ， 生 成 SAS 数据 集 。 
* 取 路 径 下 的 所 有 文件 名 ; 


Volet dir=d:\jx\ty; 
%macro fetchfile(v wz); 


filename wjlj  "Joebquote(&v wz.)"; 
data filename; 

v open-dopen("wjlj"; 

if v open>0 then do; 
v num-dnum(v open); 
do i-1 to v num; 

v tmp-cats("v tmp"); 

v tmp-tranwrd(v tmp,"",""); 
v mem-dread(v open); 
output filename; 

end; 
end; 
keep v mem v tmp; 
v close-dclose(v open); 
run; 
filename wjlj clear; 
%mend  fetchfile; 
Vofetchfile(&dir); 
%macro readexcl(v fname-,v temp-); 
Proc import out-&v temp 
datafile-"&dir&v fname" 
dbms-EXCEL replace; 
sheet-"sheet1$"; 
getnames-yes; 
mixed-no; 

scantext—yes; 
usedate—-yes; 
scantime—yes; 
run; 
%mend  readexcl; 

data — null ; 

set filename; 


call execute("oreadexcl(v fname-'|v meml||,v temp-'||v tmpl[)"); 


run; 
proc datasets library-work nolist; 

delete target; 

run; 

%macro hbdata(v tmp-); 

proc append  base-target data-&v tmp force; 
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run; 
%mend  hbdata; 
data 
set filename; 

call execute(9ohbdata(v tmp-'|v tmp||)); 


run; 


null ; 


%macro deletmp(v tmp-); 
proc datasets library-work nolist; 
delete  &v tmp; 

run; 

Vomend  deletmp; 

data 


set filename; 


null ; 
call execute(?odeletmp(v tmp-'|v tmp||)); 
run; 


【程序 解读 】 
1) v open-dopen (C'wjlj); 语句 判断 文 从 


2) v close-dclose (v open); WAJRA XH 


El 不 


是 否 打开 。 
判断 。 


3) Proc import out-&v temp 语句 导入 外 部 文件 。 


上 面 的 程序 是 宏 过 程 与 数 和 
3.8.8 CSV 格式 数据 处 理 


居 步 综合 处 


CSV 格式 的 文件 也 是 实际 开发 中 经 常 遇 至 


牛 ， 文 本 文件 存储 的 扩展 名 为 .csv。 


SUR 


中 的 应 用 。 


v> 


这 


j 的 一 类 文 们 


类 文件 是 


o 


[4|3.33] EX dNjx«l 文件 夹 下 的 单个 lifecsv.csv 文件 ， 生 成 SAS 数据 集 。 


libname — jx 'dNxNtl; 
proc import out- jx.flifecs 
datafile = "d: yx WMlVifecsv.csv" 
dbms-csv replace; 
getnames -YES; 


PCI 


datarow-3; 的 第 三 行 读 入 * 


run; 


【程序 解读 】 


/ 


1) datafile= 语 句 指定 读 入 外 部 数据 的 物理 


路 径 。 


2) dbms-csv 选项 指定 SAS 系统 能 识别 
读 入 表 用 tab。 


H.csv. dlm, jmp 。 如 果 是 


3) replace XJ 


SÉ 
Hio 


4) datarow= 指 定 从 数 


nct] 
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的 PC 文件 标志 。 例 如 ， 对 于 有 分 割 的 文人 


的 第 几 行 读 入 。 
【提示 】 CSV 和 txt 有 相似 的 地 方 ， 需 要 datarow= 选 项 指定 从 第 几 行 读 入 数 # 
时 默认 从 第 二 行 开始 读 入 ，datarow=2 。getnames= 选 项 指定 文人 


的 第 一 行 是 否 是 列 名 ， 


TEE A SE CAS SC 


可 


, 


表示 对 已 经 存储 的 数据 集 履 盖 。 如 果 不 指定 此 选项 ， 存 储 的 数据 集 不 


外， 不 设置 


SAS 


默认 了 yes。 
【 例 3.34】 iX dNxt 文件 夹 下 的 单个 lifeesv.esv 文件 ， 生 成 SAS 数据 集 。 


libname — jx 'd:jxXl'; 
%macro fetchonlyfile(v filname) ; /*xE X. —4 2X fetchonlyfile*/ 
PH] IMPORT 过 程 导入 外 部 数据 文件 ， 以 传递 变量 的 形式 灵活 读 入 */ 
proc import out-jx.f&v filname 
datafile- "d: jxXlN&v. filname..csv" 
dbms-csv replace; 


getnames-yes; 
datarow-3; 
run; 
%mend  fetchonlyfile; 
%fetchonlyfile(lifecsv);/* 调 用 宏 ， 并 传递 实 参 lifecsy 给 形 参 */ 


【程序 解读 】 

D 宏 过 程 实现 读 入 外 部 数据 文件 ， 把 功能 给 予 封装 。 通 过 传递 参数 给 宏 v filname. 

2) %fetchonlyfile Clifecsv) 语句 调用 宏 过 程 ， 并 传递 实 参 lifecsy 给 形 参 v. filname 变量 。 
传递 的 是 文件 名 。 


3.3.4 ”DAT 格式 数据 处 理 


DAT 格式 文件 和 TXT 文本 文件 的 性 质 一 样 ， 只 是 DAT 格式 文件 在 实际 开发 中 更 经 常 遇 


到 。 这 类 文件 存储 的 好 处 是 其 二 进 制 文件 数据 。TXT 格式 是 字符 文件 。 
【 例 3.35】 对 例 3.29 进行 改造 ， 读 取 d:\jx\xs.dat 文件 ， 文 件 扩展 名 为 dat 格式 创建 数据 


pn 


中 


xsdat。 


* 文 件数 据 按 列 模式 读 取 ; 
%let dir= D:Wxxs; 人 # 定 义 外 部 文件 路 径 半 
%let | gsm-.dat; 
%let filename = "&dir&gsm"; 
libname jx'dx; /*5E XE RUE / 
data jxxsdat; ”人 * 数 据 集 存储 到 指定 逻辑 库 */ 
infile &filename dsd missover ;/*infile 语句 读 入 外 部 文件 */ 
input bh 1-10 /x* 列 模式 读 取 数 据 ， 从 第 一 列 到 第 10 列 为 bh 变量 对 应 的 数据 */ 


xm $ 11-18 
mobile 19-29 
dx $30-41 
run; 
【程序 解读 】 


1) infile 语句 读 入 逻辑 名 filename 对 应 物理 位 置 处 的 数据 文件 d:yx\xs.dat。 
2) input 语句 定义 变量 ， 数 据 文件 中 每 一 列 对 应 一 个 变量 ， 相 应 列 的 数据 存储 到 对 应 变 


3) 此 处 通过 列 模式 读 入 变量 对 应 的 数据 ， 列 开始 位 置 到 列 结束 位 置 。 
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【提示 】 对 应 上 面 的 程序 也 可 以 通过 绝对 指针 方式 和 列 模式 两 种 方式 混合 应 用 读 入 外 部 
数据 文件 。 
【 例 3.36】 对 列 3.35 进行 改造 ， 通 过 绝对 指针 和 列 混合 模式 两 种 方式 同时 运用 读 入 外 部 
数据 文件 。 
* 文 件数 据 按 列 模式 读 取 ; 
%let dir= D:jxws; /定义 外 部 文件 路 径 头 
%let | gsm-.dat; 
%let filename = "&dir&gsm"; 
libname jx'dijx; /* E UZEE */ 
data jx.xsjddat; /* AE ETT E SIE E E 
infile &filename dsd missover ; 


input (Q1 bh 10. AAR SEORANG, 
xm $11-18 FIBER */ 
(219 mobile 11. 
(030 dx $12. 
run; 
【程序 解读 】 


Titi 


1) input 语句 中 定义 变量 ， 通 过 @ 指 针 控 制 列 开始 位 置 ,“@ 列 开始 位 置 变量 名 变量 类 
型 ”。 

2) 此 程序 用 了 两 种 方式 读 外 部 数据 ， 语 名 “xm $11-18” 列 模式 读 入 外 部 数据 文件 对 应 
列 的 数据 。 

【提示 】 通过 对 比 可 以 看 出 ，DAT 格式 与 TXT 格式 的 文件 读 取 方式 一 样 ， 只 是 文件 扩展 


名 格式 不 同 。 
3.3.5 ”关系 数据 库 数据 处 理 


实际 业务 开发 中 SAS 系统 经 常 与 Oracle 关系 数据 库 交 互 应 用 ， 这 也 体现 了 SAS 与 其 他 
数据 库 的 交互 能 力 。SAS 系统 内 部 通过 SAS/Access 模块 连接 关系 数据 库 。 
【 例 3.37] 通过 SAS 程序 处 理 rd fewj.dat 外 部 文件 ， 并 装载 到 Oracle 数据 库 目 标 表 
rd test 中 。 
libname sjk oracle user-chiran password=chiran  path-orcl; 
Volet fl =d:\jx\rd_fgwj.dat; 
%let filrd ="&f1"; 


data rdtest ; 
Infile &filrd dlm-'| 1recl-389 dsd missover firstobs=1 obs=3 ; 


input id :$8. 
type :$3. 
Ixh :$32. 
Ix nane :$40. 
c type :$3. 
ex ins :$30. 
sf :$1. 
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sfs 

vf 

blk 

sfmo 

sfzh 
dte rq 
crlimit 
using 

pdc 

pdd 
Score c 
score d 
score scale 
r increase 
l increase 
S c per 

S c tem 


Score re code 


score dt 
h re f 

h ref c 
debrecord 


run; 


:$1. 
:$1. 
:$1. 
:$1. 
:$1. 


:yymmdd10. 


:20.2 
:20.10 
:20.10 
:20.10 
:20.2 
:20.2 
:$6. 
:$4. 
:20.2 
:20.2 
:20.2 
:$3. 
:$8. 
:$1. 
:$6. 
:$20. 


proc append base=sjk.rd test 


( bulkload=no 


NULLCHAR-NO /* 告 诉 SAS 系统 缺失 值 是 以 NULLCHARVAL= 指 定 人 


dbsastype=( 

dte rq -—DATE 
crlimit —NUMERIC' 
using —NUMERIC' 
pdc —NUMERIC' 
pdd —NUMERIC' 
Score c —NUMERIC' 
score d -—NUMERIC' 
|] increase —NUMERIC 
S C per —NUMERIC' 
S c tem —NUMEBRIC' 

) 

NULLCHARVAL-^-" " 

) 

data-rdtest; ERRA CS 

run; 
【程序 解读 】 


1) 数据 步 首先 对 外 部 数据 文件 rd_fewj.dat 4E 


Yir 


tien 


IIT 


E, Æ SAS 能 够 识别 的 数据 集 rdtest。 
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2) proc append: 过 程 步 通过 append 过 程 把 数据 集 rdtest 装载 到 Oracle 数据 库 表 rd_test。 

3) bulkload=no: 选项 设置 告诉 SAS 系统 不 用 Oracle 的 sql louder 方式 装载 ， 不 指定 此 选 
项 默认 Oracle 的 sql louder 方式 装载 。 

4) dbsastype=: SAS 数据 集中 变量 为 数值 类 型 和 日 期 类 型 的 必须 通过 此 选项 指定 变量 类 
型 才能 正确 地 装载 到 Oracle 数据 库 对 应 的 表 中 。 

5) NULLCHAR-NO: 告诉 SAS 系统 缺失 值 是 以 NULLCHARVAI= 指 定 值 奉 换 。 

6) NULLCHARVAL-" ": 指定 以 空 符 换 。 


3.3.6 ”批量 数据 文件 处 理 
对 于 实际 应 用 开发 而 言 数据 量 比较 大 ， 达 到 百 万 级 记录 以 上 的 数据 通常 存储 在 不 同 的 文 

件 中 ， 只 是 文件 类 型 一 样 ， 对 同一 类 型 的 数据 文件 可 以 采用 批量 导入 数据 文件 的 处 理 方式 ， 

从 而 提高 了 数据 处 理 效率 和 简便 性 。 
[5/3.38] 批量 导入 dix 文件 夹 下 的 所 有 txt 格式 文件 ， 数 据 集 存储 到 临时 逻辑 库 。 


X "dir dNXY.txt /b 2d:jxyx qb"; 
/*x 为 执行 Windos 命令 ， 将 dix 中 的 所 有 ext 格式 的 文件 的 文件 名 输出 到 jx_qb 文件 中 */ 
%macro fetchfile(v filname) ; 和 # 定 义 一 个 宏 fetchfile*/ 
PV H] IMPORT 过 程 导入 外 部 数据 文件 */ 
proc import out= work.f&v filname 
datafile- "d: jxW&v  filname..txt" 
dbms-tab replace; 


getnames-yes; 
datarow-3; 
run; 
%mend fetchfile; 
P* 通过 数据 步 ， 执 行 call execute 语句 将 jx_qb 文件 中 的 文件 名 依次 作为 宏 fetchfile 的 参数 */ 
data null ; 


infle "dNxNx_qb";# 读 外 部 文件 这 _qb%/ 
input v str :$60.; 
call execute (compress('Vofetchfile('|scan(v. str, 1,'.]|;)); 
人/# 调 用 宏 过 程 fetchfile， 批 量 导入 txt 类 型 的 所 有 外 部 数据 ， 生 产 相 应 的 数据 和 
run; 
【程序 解读 】 
1) 通过 x 命令 , 执行 “dir d: jx V*.txt /b >d:NxNx qb” 语 句 ， 通 过 dir 命令 切换 到 d: jx txt, 
通过 管道 符 > 把 同类 型 的 txt 格式 文件 的 文件 名 输出 到 dix 文件 夹 下 的 jx_qb 文件 中 。 
2) 创建 宏 过 程 fetchfile， 调 用 import 过 程 ， 执 行文 件 导入 命令 。 
3) 数据 步 通 过 call execute. 语句 调用 宏 过 程 fetchfile， 传 递 实 参 v str 的 值 给 宏 变 


v filname. 
3.3.7” 宏 过 程 数据 处 理 
宏 过 程 是 把 功能 进行 封装 ， 就 像 Oracle 数据 库 的 存储 过 程 一 样 。 
【 例 3.39】 宏 过 程 实现 外 部 数据 处 理 ， 对 例 3.36 进行 改造 。 
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vit 
* 
— 


中 


H 


* 宏 过 程 实现 数据 文件 处 理 ; 
%macro readfile(v dirv type,v name); 


FENIR EEE EAA v_dir， 定 义 文件 格式 宏 变 量 v. type， 定 义 数据 集 名 安 变量 v name*/ 


%let  dir-&v dir; /*v dir 引用 */ 
%let ”gsm=.&v_type.;* 文 件 格 式 宏 变 量 引 用 */ 
%let filename = "&dir&gsm"; 
libname jx'diyjx'’ /xX 定义 逻辑 库 */ 


data jx.s&v name; /* 数 据 集 存储 到 指定 逻辑 库 ， 数 据 集 名 为 v_name 变量 传递 值 */ 


infile &filename dsd missover ; 


input @1bh 10.* 绝 对 指针 @ 模 式 读 取 数 据 */ 
xm $11-18. /* 列 模式 读 取 数据 */ 
(219 mobile 11. 
(930 dx $12. 
run; 
%mend readfile; 


%readfile( Dx xs,dat,msjxsdat);/ JH H] Exe, RAKA 


【程序 解读 】 


1) %macro 是 宏 定义 语句 的 开始 ，readfile 为 宏 名 ，v_dir、v_type 和 v name 为 宏 过 程 的 


3 个 形 参 


Lo 


2) %let 语句 为 定义 宏 变 量 ， 引 用 宏 参数 传递 的 变量 值 。 


m: 


3) 数据 步 中 数据 集 名 sj&v_name 为 sj 与 宏 变 量 名 v. name 传递 值 组 合 的 名 字 。 

4) %readfile CD: jx ws,dat,msjxsdat) 为 宏 调 用 语句 ， 传 递 实 参 文 件 路 径 与 文件 名 Dx ws 
给 宏 变 量 v_ dir。dat 为 实 参 格 式 传递 给 v_ type。msjxsdat 为 数据 集 名 传递 给 v_ name. 

【提示 】 此 程序 具有 通用 性 ， 读 取 其 他 类 型 的 文件 只 需要 传递 相应 的 参数 就 可 以 。 


3.88 ”表格 数据 处 理 


表格 数据 也 是 经 常见 到 的 一 类 数据 ， 在 做 调查 问卷 、 经 济 数 据 分 析 、 医 药 分 析 、 病 人 跟 


踪 调 查 时 经 常用 到 。 


表格 数据 处 理 中 经 常用 到 Hash. Hash 为 快速 存 取 数 据 提供 高 效 的 、 方 便 的 方法 ， 基 于 查 


找 索引 。 
定义 Hash 语法 格式 : 


DECLARE object variable<(<argument tag-1: value-1<, ...argument tag-n: value-n>>)>; 


【语法 解读 】 
DECLARE: 声明 Hash 的 关键 字 ， 必 写 项 。 


Object: 指定 对 象 ， 只 能 是 Hash 或 Hiter. Hash 指定 一 个 哈 希 对 象 ， 哈 希 对 象 提 供 了 一 
种 对 数据 的 快速 存储 和 检索 ， 哈 希 对 象 存储 和 检索 数据 按照 关键 主键 查找 ; Hiter 指定 一 个 哈 


希 迁 代 嚣 对象， 哈 希 碗 代 器 对 象 通 过 正 向 或 反 向 键 顺 序 帮助 检索 喻 希 对 象 的 数据 。 


Variable: 指定 Hash 或 Hiter 的 名 字 ， 也 就 是 给 Hash 定义 名 字 ; 


argument tag: 指定 定义 Hash 或 Hiter 信息 。 Hash 和 Hiter 的 
5 个 有 效 的 哈 希 对 象 参数 标签 如 下 。 


区 别 在 argument tag 参数 上 。 


1) dataset: 'dataset name <(datasetoption)>': 指定 装载 的 数据 集 名 字 加 载 到 哈 希 对 象 。 数 
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据 集 
明 一 


个 指定 


对 象 


名 称 必须 括 在 单 引号 或 双 引 号 内 。 宏 变量 
个 哈 希 对 象 中 的 数据 参数 标签 。 执 行 以 下 


(D 命名 变量 。 
D 选择 一 个 子 集 数 据 加 工 。 


© 对 数据 集 有 条 件 选 择 ， 如 删除 或 保留 数据 集中 的 变量 


© where 过 滤 条 件 过 滤 数 据 。 


的 输出 方法 调用 。 
© 指定 一 个 密码 数据 集 。 


必须 提 


执 


下 操作 : 


fii 


6 在 双 引 号 内 。 使 用 数 


FE 


中 集 的 选择 时 ， 


以 一 组 数据 加 载 到 一 个 哈 希 对 象 或 一 个 输出 数据 集 ， 在 一 


为 便于 理解 ， 下 面 举 一 个 简单 的 声明 Hash 语法 的 例子 。 
DECLARE hash h stu (dataset: 'stu (where = (class = 10))); 


【语法 解读 】 


h stu: 为 声明 的 Hash 对 象 名 。 


dataset: 声明 指定 数据 集 标 签 ，stu 为 数据 集 名 。 


Tr 


where= 语 句 为 过 滤 条 伯 


2) duplicate: 'option': 对 重复 键 设置 。 通 过 
时 是 否 忽 略 重 复 键 数据 ， 默 认 是 存储 第 一 个 关键 值 数 所 


如 下 。 
'replace' | 7Y': 存储 最 后 重复 键 记录 。 
'error' | 'e': 如 果 发 现 重复 键 记录 报告 错误 的 日 志 。 


3) hashexp: n， 指 定 Hash 表格 空间 。 


， 取 数据 集 符 合 条 件 的 数据 。 
这 个 标签 参数 的 定义 , 胡 


Ex 


4) ordered: 'option' 按照 索引 指定 排序 。 


5) suminc: 'variable-name': 


保持 一 个 汇总 


数 哈 希 对 象 键 。 


【 例 3.40】 经 济 分 析 调 查 数据 ， 如 表 3-3 一 表 3-5 所 示 。 


有 定 装 载 数据 集 到 哈 希 
Bo FABRE. 


“option” 取 的 值 
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表 3-3 消费 调查 
调查 地 区 公司 名 调查 时 间 年 收入 /万 元 
北京 沃尔玛 2011-02-29 30 000 
北京 沃尔玛 2011-03-15 28 000 
北京 家 乐 福 2011-02-29 24 000 
北京 家 乐 福 2011-03-15 29 000 
AGE 沃尔玛 2011-02-29 28 000 
XH 沃尔玛 2011-03-15 27 000 
天 津 家 乐 福 2011-02-29 21 000 
KIE 家 乐 福 2011-03-15 19 000 
表 3-4 北京 地 区 
调查 地 区 调查 时 间 收益 率 (96) 
北京 2011-02-29 30 
北京 2011-03-15 28 


表 3-5 天津 地 区 


调查 地 区 调查 时 间 收益 率 〈 百 分 比 ) 
天 津 2011-02-29 27 
天 津 2011-03-15 22 
对 以 上 数据 进行 合并 生成 新 数据 表 ， 如 表 3-6 所 示 。 
表 3-6 合并 后 表格 数据 显示 样式 
调查 地 区 公司 名 调查 时 间 年 收入 /万 元 收益 率 〈%) 
北京 沃尔玛 2011-02-29 30 000 30 
北京 沃尔玛 2011-03-15 28 000 28 
北京 家 乐 福 2011-02-29 24 000 27 
北京 家 乐 福 2011-03-15 29 000 22 
天 津 沃尔玛 2011-02-29 28 000 
天 津 沃尔玛 2011-03-15 27 000 
天 津 家 乐 福 2011-02-29 21 000 
天 津 家 乐 福 2011-03-15 19 000 
* 表 3-3 消费 调查 数据 处 理 ; 


data inve incom; 
Length time $10. 


input area$ company $ 


cards; 

beijing ”沃尔玛 
beijing ”沃尔玛 
beijing ZXR} 
beijing XR} 
tianjin 沃尔玛 
tianjin 沃尔玛 


dp 


tianjin 家 乐 福 
tianjin 家 乐 福 
H 

run; 


2011-02-29 30000 
2011-03-15 28000 
2011-02-29 24000 
2011-03-15 29000 
2011-02-29 28000 
2011-03-15 27000 
2011-02-29 21000 
2011-03-15 19000 


* 表 3-4 beijing 地 区 数据 处 理 ; 


data beijing; 
length time $10.; 
input area$ time$ 


cards; 


rate $; 


beijing 2011-02-29 30 


beijing 2011-03-15 


run; 


28 


* 表 3-4 tianjin 地 区 数据 


time $ anav income 
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data tianjin; 

length time $10.; 

inputarea $ time $ rate $; 

cards; 

tianjin 2011-02-2927 

tianjin 2011-03-1522 

run; 

人 # 通 过 hash 处 理 3 个 数据 集 ， 根 据 area. time 关键 字 hash 数据 */ 

data invest analy; 
if Othen set beijing;#* 如 果 是 一 开始 ， 读 入 数据 集 beijing*/ 
if n-1 then do;/# 只 是 在 第 一 次 执行 声明 hash*/ 
declare hash hax; 


end; 


set inve incom; 
hax- new hash(dataset:area,ordered:'ascending"; 
hax.defineKey ('area','time"); 
hax.definedata(all:'yes"); 
hax.defineDone (); 
record-hax.find(); 
run; 
/*hash 不 能 对 中 文 关 键 字 处 理 ， 转 换 为 拼音 ， 下 面 的 程序 把 拼音 表示 的 中 文 地 区 转换 为 中 文 */ 
data invest look(drop=record); 


set invest analy ; 

select (area);  /*X} id 字段 选择 查询 */ 

when (beijing)  area-dbzi5 ”* 条 件 若 成 并 执行 area='beijing*/ 

when (tianjin) ”area=' 天 津 ; /* 条 件 若 成 立 执行 area='tianjin"*/ 
otherwise ”area=' 其 他 省 份 ;' ”入 上 面条 件 都 不 成 立 执行 area=' 其 他 省 份 */ 


end; 


run; 


proc print data-invest look; 


var area company time anav income rate;/# 按 var 语句 指定 的 顺序 显示 输出 */ 
run; 
【程序 解读 】 


1) 对 表格 数据 先 通过 数据 步 处 理 ， 生 成 SAS 能 够 识别 的 数据 集 。 

2) 通过 hash 处 理 数 据 集 ,“declare hash hax;” 语 句 声明 哈 希 ， 哈 希 名 为 hax. 

3) hax= new_hash(dataset:area,ordered:ascending); 对 哈 希 定义 ， 数 据 集 标签 为 area, 
ordered 指定 按 升 序 排列 。 

4) hax.defineKey (areavtime); 定 义 查 找 匹配 关键 字 主 键 为 area 和 time 两 个 字段 。 

5) hax.definedata(all:'yes"); 定 义 数据 域 为 所 有 。 

6) hax.defineDone 0; 哈 希 定义 结束 语句 。 

7) record=hax.find(); 哈 希 查找 语句 。 
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3.3.9 


需要 对 已 经 生成 的 数据 集 进行 二 次 开发 处 理 ， 生 成 满足 业务 需求 的 数 
现 和 分 析 。 
【 例 3.41】 


二 次 数据 处 理 
实际 开发 中 通常 数据 处 理 并 不 是 一 次 性 就 能 达到 满足 业务 需求 的 数据 ， 
要 进行 二 次 数据 处 理 。 
SAS 系统 不 能 


一 


3 


分 类 统计 ， 如 表 3-7 所 示 。 


以 金融 统计 数据 为 例 ， 通 过 SAS 程序 分 析 


表 3-7 全 国 银行 间 同业 拆借 市 场 交 易 数 据 统计 


居 ， 从 而 1 


接 对 外 部 数据 文件 或 其 他 关系 数据 库 数据 所 具有 的 数据 进行 分 析 ， 需 要 
先 通过 SAS 程序 转换 数据 到 SAS 系统 ， 从 而 生成 SAS 系统 能 够 识别 的 数 扫 


B 集 ， 然 后 再 根据 


于 前 端的 展 


全 国 银行 间 同 业 拆 借 市 场 交 易 期 限 


1 天 7 天 14 天 20 天 
2011 年 累计 281 600.18 487 009.81 9 765,21 3 456.85 
2012.01 2 345.17 411 5 34323 4.13 663.22 5.56 987.12 5.19 
2012.02 2 341.07 4.31 2344.81 4.26 965.22 4.51 784.12 7.11 
2012.03 2 342.23 4.21 1345.71 4.28 762.22 4.59 885.12 5.14 
2012.04 2 343.59 4.34 2 348.89 4.23 861.22 5.32 687.12 6.12 
2012.05 2 346.32 4.21 2 335.36 4.29 665.22 5.31 987.12 7.13 


* 处 理 原始 数据 ; 


data interbank; 


input trad vol warae @@; 
cards; 
281600.18 . 487009.81 . 9765.21. 3456.85. 


12345.17 4.11 5343.23 4.13 663.22 5.56 987.12 5.19 
12341.07 4.31 2344.81 4.26 965.22 4.51 784.12 7.11 
12342.23 4.21 1345.71 4.28 762.22 4.59 885.12 5.14 
12343.59 4.34 2348.89 4.23 861.22 5.32 687.12 6.12 
12346.32 4.21 2335.36 4.29 665.22 5.31 987.12 7.13 


run; 
* 二 次 数据 处 理 ， 生 成 按 年 对 应 的 数据 ; 
data clbank; 
set interbank; 
if n «5 then year-2011; 
else if n «9 then year-201201; 
else if n «I3then year-201202; 
else if n «17 then year-201203; 
else if n <21 then year-201204; 
else year-201205; 
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run; 


means 过 程 对 经 济 数据 按 年 分 析 ，; 


—— 


* i 


run; 


【程序 解 


proc means data-clbank ; 
by year; 


读 】 


1) 首先 通过 数据 步 处 理 原始 数据 ， 生 成 数据 集 interbank. 


2) x oy 


让 语句 判断 生成 按 年 对 应 的 数据 。 


ES interbank 二 次 处 理 ， 根 据 需要 生成 对 应 按 年 的 数据 。 每 一 年 对 应 4 条 记录 ， 


3) 调用 means 过 程 对 数据 集 clbank 进行 均值 分 析 ， 按 年 分 析 。 
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4 


第 4 章 ”过 程 步 基础 与 案例 


4.1 过程 步 基 础 


SAS 过 程 步 (proc step) 是 SAS 系统 的 男 一 个 核心 步 ,对 生成 的 数据 集 进行 分 析 禾 


挖掘 数据 信息 。 相 对 数据 步 而 言 过 程 步 比较 固定 ， 功 能 被 封装 ， 用 户 只 需要 知道 每 一 个 过 和 


0 处 理 


~ 


r1 


实现 什么 功能 ， 用 到 时 根据 功能 需求 调用 相应 的 过 程 即 可 。 过 程 步 就 像 一 个 模板 ， 基 本 上 不 


需要 修改 什么 。 过 程 步 没 有 语句 的 伸缩 性 ， 很 多 都 是 固定 的 。 


4.1.1. 过程 步 功 能 与 定义 


1. 过 程 步 功能 


SAS 系统 通过 SAS 数据 步 生 成 和 管理 数据 , 调用 相应 的 过 程 进行 分 析 、 生 成 报表 、 
SAS 过 程 步 是 对 生成 的 数据 集 进行 处 理 和 分 析 ， 是 SAS 内 部 已 经 编译 好 的 过 程 ， 用 户 直接 根 


据 业 务 需求 ， 调 用 SAS 内 部 过 程 并 根据 业务 需求 对 所 调用 过 程 选 项 设置 进行 分 析 处 理 、 作 图 


和 报表 ， 然 后 根据 调用 过 程 输出 的 信息 写 出 分 析 报告 ， 做 总 结 性 评价 。 


2. 过 程 步 定 义 


E» 


解 过 程 步 定义 是 掌握 过 程 步 的 关键 ， 过 程 步 与 数据 步 一 样 ， 也 有 自 


格 执行 语法 规范 才能 正确 地 调用 过 程 步 。 过 程 步 说 明 如 表 4-1 Bra. 


o 


己 的 语法 规范 ， 严 


过 程 步 语 法 格式 : PROC 过 程 名 <DATA= 数 据 集 名 > < 选项 >; 
过 程 语句 < 参数 选项 >; 
RUN; 
表 4-1 过 程 步 说 明 
过 程 步 操作 语句 功 能 
PROC 过 程 步 开始 标志 关键 字 ， 告 诉 SAS 系统 此 处 为 过 程 步 
过 程 名 SAS 系统 内 部 编译 好 的 过 程 ， 直 接 写 过 程 名 
DATA= 指定 过 程 步 处 理 的 数据 集 ， 省 略 取 当 前 最 新 work 数据 集 
选项 控制 过 程 的 选项 ， 如 doubled: ， 在 观测 记录 之 间 写 一 空 行 ， 每 个 过 程 有 自己 的 选项 ， 同 时 还 有 通用 选项 
过 程 语句 过 程 内 部 分 析 数 据 集 用 到 的 语句 
参数 选项 过 程 语句 具有 的 选项 ， 如 分 析 变量 选项 
RUN 告诉 过 程 步 到 此 处 结束 ， 也 可 以 省 略 此 语句 ， 在 下 一 个 过 程 步 或 数据 步 的 开始 处 结束 
4.1.2 过程 步 应 用 
过 程 步 实 际 业 界 应 用 中 经 常用 到 的 是 过 程 步 过 程 语句 。 过 程 步 基本 语句 是 对 所 调用 过 程 


进行 辅助 分 析 ， 通 过 对 过 程 步 过 程 语句 的 选择 ， 使 分 析 和 处 理 数 据 集 的 功能 更 强大 。 过 程 步 
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语句 分 为 i 


过 程 语 句 


通用 语句 和 专用 语句 ， 通 


4-2 


通 
的 过 程 具 有 的 语句 。 使 用 时 要 注意 
过 程 步 通用 基本 语句 如 表 


所 示 。 


表 4-2 


用 语句 适合 每 
区 分 ， 哪 些 是 通 


过 程 步 通用 基本 语句 


功 


au 
He 


语句 ， 哪 些 


个 过 程 ， 专 用 语句 只 适合 本 过 程 步 所 调用 
是 茶 个 过 程 专用 语句 。 


VAR 


指定 分 析 变 量 ， 多 个 变量 


空格 分 隔 


BY 


指定 一 个 或 多 个 分 组 


| 变量 对 数据 外 


分 组 ， 数 据 身 


要 先 排序 


省 定 一 个 或 多 个 分 类 变量 ， 


不 需要 


EA E HERE 


建 模 中 指定 模型 的 因 变量 和 


变量 以 及 相关 模型 选项 


于 分 析 变 量 的 频数 变量 


Jo e 
HAE. 


WEIGHT 


指定 权 数 变量 ， 以 获得 该 变量 占 百 分 比 的 权 寻 


juu 


ID 


省 定 观测 标识 ， 输 


会 去 掉 OBS 选项 标识 


OUTPUT 


对 过 程 分 析 结 果 输 


到 新 数据 身 


po 


WHERE 


条 件 选项 语句 


TITLE 


输出 文件 加 入 标题 信息 


FOOTNOTE 


输出 文件 加 入 脚注 信息 


OPTIONS 
[1 
中 ; 过程 步 中 
MODEL 等 。 


【 例 4.1】 对 一 个 班级 的 学 生成 绩 进 行 分 析 ， 求 上 
最 高 分 和 最 低 分 。 


总 成 绩 、 


data 
input 
cards; 
1001 
1002 
1003 
1004 
1005 
1006 


E 


run; 


过 程 步 中 的 过 程 语句 与 数据 步 中 的 语句 不 同 ， 数 据 步 中 的 语句 不 能 


通过 此 语 名 设置， 改变 SAS 系统 的 默认 设置 


到 过 程 步 


过 程 语句 以 某 一 个 关键 字 开 始 ， 如 BY. VAR. CLASS. WEIGHT. FREQ. 


score; 


id name $ class 


高 名 


杨 小 


1 89.2 78.3 89 


中 小 海 1769978 
刘海 洋 1 88 56 66 


1 99 89 98 


赵 小 红 1 87 86 83 


马 西 瑞 1 89 58 43 


人 # 过 程 步调 


proc means 


var 


run; 


程序 执行 后 的 结果 如 图 
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math English chinese; 


data=score 


4-1 所 示 。 


math english chinese; 


] means 过 程 求 出 一 个 班级 数学 、 英 语 和 语文 的 总 成 绩 、 
sum max min; 


一 个 班级 数学 、 英 语 和 语文 3 门 课 


最 高 分 和 最 低 分 */ 


Bi 输出 - (无 标题 ) 


528.2000000 39.0000000 76.0000000 
466.3000000 339.0000000 56.0000000 
457.0000000 98.0000000 43.0000000 


图 4-1 score 数据 集 分 析 结 果 


【程序 解读 】 
1) 过 程 步调 用 means 过 程 ，data= 选 项 指定 对 数据 集 score 分 析 。 
2) sum、max、min 三 个 选项 对 var 语句 指定 的 分 析 变 量 math、English、Chinese 三 个 变 
量 分 别 求 出 一 个 班级 的 总 成 绩 、 最 高 分 和 最 低 分 。 


4.2 ”常见 过 程 步 应 用 


SAS 系统 内 部 过 程 比 较 多 ， 本 节 通 过 常见 过 程 的 讲解 告诉 读者 学 习 过 程 的 方法 。 
4.2.1 “print 过 程 


print 过 程 属于 打印 输出 过 程 , 对 要 查看 的 数据 集 可 以 通过 调用 print 过 程 进 行 打 印 输 出 到 
SAS 系统 的 输出 窗口 。 一 般 经 常用 print 过 程 查看 生成 的 数据 集 。 

print 过 程 语 法 格式 : 

PROC PRINT <DATA= 数 据 集 名 > ”< 选项 >; 

BY 变量 名 1 < 变量 名 2>.. 

FOOTNOTE<p> < Foaie 

FORMAT 变量 名 1 输出 格式 名 ; 

ID 变量 名 1 < 变量 名 2>.….; 

LABEL 变量 名 = 标签 名 '...; 

PAGEBY 变量 名 ; 

SUM 变量 名 1 < 变量 名 2>.….; 

SUMBY 变量 名 ; 

TITLE<n> <' 标 题 内 容 '>; 

VAR 变量 名 1 < 变量 名 2>...; 
WHERE 条 件 语句 ; 
RUN; 

【语法 解读 】 

1) <DATA= 数 据 集 名 >: 指定 数据 集 名 ， 省 略 时 为 当前 临时 库 最 新 数据 集 。 


$1 


2) < 选项 >: 可 以 取 的 选项 如 DOUBLEID 指定 数据 记录 之 间 加 入 一 空 行 ,LABEL 指定 打 
印 输出 标签 ，NOOBS 指定 不 显示 观测 序号 。 
【 例 4.2】 打印 输出 学 生 数 据 集中 各 科 成 绩 都 大 于 80 分 的 学 生 信息 。 


data score; 
input idname $class math English chinese; 
cards; 
1001 高 名 1892 78.3 89 
1002 仲 小 海 1 76 99 78 
1003 刘海 洋 1 88 56 66 
1004 杨 小 帅 1 99 89 98 
1005 赵 小 红 1 87 86 83 
1006 马 西 瑞 1 89 58 43 


run; 
人 # 过 程 步调 用 print 过 程 打 印 输出 各 科 成 绩 都 大 于 80 分 的 学 生 信息 */ 
proc print data-score noobs; 
where math>80 and english>80 and chinese^80; 
P*where 条 件 语句 ，and 语句 表示 且 ， 三 者 都 符合 才 取 出 数据 打印 输出 */ 
title ' 各 科 成 绩 大 于 80 分 的 学 生 信息 '; 
/*title 语句 指定 标题 */ 
run; 
【程序 解读 】 
1) data=score: 指定 打印 数据 集 score。 
2) noobs: 指定 不 打印 输出 序号 。 
3) where 条 件 语句 指定 满足 各 科 成 绩 都 大 于 80 的 学 生 信息 打印 输出 到 输出 窗口 。 
4) title 语句 指定 打印 标题 信息 。 
程序 执行 后 输出 窗口 显示 打印 结果 如 图 4-2 所 示 。 


* 


Bü 输出 - (无 标题 ) 
ESI 


id name class math engl ish chinese 


1004 — i5 1 99 89 38 
1005 — 赵 小 红 1 8 86 83 


图 4-2 成 绩 大 于 80 分 的 学 生 信 息 


4.202 means 过 程 


means 过 程 是 SAS 提供 的 一 个 数据 汇总 统计 过 程 ， 提 供 单个 或 多 个 变量 的 简单 描述 统计 
分 析 。 与 univariate 过 程 比 较 ，means 过 程 倾向 于 描述 已 经 明确 的 样本 所 在 总 体 符 合 正 态 分 布 
的 变量 ， 不 提供 百 分 位 数 ， 可 以 提供 95% 的 可 信 区 间 ， 对 全 体 观 测 或 分 组 观测 进行 描述 性 统 
计 ， 如 基于 距 计 算 描述 统计 、 分 位 数 估 算 〔( 包 括 中 位 数 )、 识 别 极 值 、T 测试 。 
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means 过 程 


口 、 


语法 格式 : 


PROC MEANS <DATA= 数 据 集 名 > < 选项 > < 统计 关键 量 >; 
VAR 变量 名 1 < 变量 名 2>...; 
BY 变量 名 1 < 变量 名 2>.. 

CLASS 变量 名 1 < 变量 名 N 


FREQ Ec E H 


量 名 >; 


WEIGHT < 变量 名 >; 
ID 变量 名 1 < 变量 名 2>...; 
OUTPUT <OUT= 数 据 集 名 > 关键 字 =< 新 变量 名 列 >; 


RUN; 


【语法 解读 】 


1) means: 


所 调用 的 过 程 名 。 


2) <DATA= 数 据 集 名 >: 指定 要 分 析 的 数据 集 名 ， 默 认为 当前 最 新 数据 集 。 

3) < 选项 >: 常用 选项 ， 如 noprint 禁止 统计 报告 输出 到 OUTPUT 窗口 ; maxdec=n 指定 
列表 输出 的 最 大 小 数位 数 ， 默 认为 2。 

4) < 统计 关键 量 >: 常用 统计 关键 字 ， 如 max( 求 最 大 值 ) 、min( 求 最 小 值 ) 、mean CK 
HE) ~ sum GERD 等 ， 具 体 还 有 很 多 ， 用 到 时 查 SAS 帮助 。 


【 例 4.3】 某 奶 广 用 自动 装 奶 机 装 奶 ， 在 装 奶 机 正常 工作 时 ， 每 瓶 奶 净重 450g， 某 日 随 
机 抽取 了 10 瓶 成 品 ， 称 重 分 别 为 432、436、447、439、445、 


460、442、456、447、440， 请 


问 这 时 的 装 奶 机 是 否 正 常 工 作 ? 
分 析 : 若 装 奶 机 正常 ， 当 前 已 经 装 奶 的 全 部 产品 净重 与 450g 无 统计 意义 差异 。 将 分 析 变 
量 的 值 减 去 正常 值 ， 得 到 一 组 新 样本 ， 做 均值 为 零 的 T 检验 。 


data tcheck; 

input milk @@; 
milck=milck-450;/* Ej 1E 35 (8 B) 28 / 
cards; 
452 436 447 439 445 460 442 456 447 440 


, 


run; 
/# 调 用 means 过 程 进 行 了 检验 */ 
proc means data=tcheck t prt /*T 检 验 */ 
run; 

程序 执行 后 结果 显示 如 图 4-3 所 示 。 

【程序 解读 】 

1) 数据 步 milck=milck-450; 语句 求 出 实际 值 与 正常 

值 的 偏差 。 
2) 调用 means 过 程 ， 进 行 工 检验 。 


结论 : T 检验 中 p=0.1737>0.05, 假设 成 立 ， 因 此 装 奶 


机 正常 。 


是 输出 - (无 标题 ) et 


MEANS PROCEDURE 
UTERE milck 
Pr > ltl 


4-3 EH. means 4) Er T 4338 
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4.2.3 copy 过 程 


copy 过 程 可 以 复制 一 个 逻辑 库 下 的 所 有 数据 集 到 另 一 个 逻辑 库 下 或 者 从 一 个 文件 复 


男 一 个 文件 


也 可 以 有 选择 地 复制 逻辑 


copy 过 程 语 法 格式 : 


库 下 的 数据 集 。 


PROC COPY in= 源 逻辑 库 名 out= 目 


密码 >><index=YESINO>; 


SELECT 成 员 名 </<memtype= 成 员 类 型 > <alter= 修 改 密码 >; 
EXCLUDE 成 员 名 </<memtype= 成 员 类 型 >; 


RUN; 
【语法 解读 】 


1) copy: 所 调用 的 过 程 名 。 

2) in=: 选项 指定 源 逻 辑 库 名 。 

3) out=: 选项 指定 目标 逻辑 库 名 。 
4) memtype= 成 员 类 型 : 可 选项 ， 


5) move: 选择 指定 在 成 功 复制 到 输出 库 out= 指 定 的 逻辑 库 后 ， 从 源 逻 辑 库 (in= 源 逻辑 


BI 


| 到 


标 逻 辑 库 名 <memtype= 成 员 类 型 > <move <alter= 修 改 


规定 SAS 数据 库 中 一 个 或 几 个 被 复制 或 移动 成 员 的 类 


型 ， 如 memtype= (data catalog) 。 
库 ) 中 删除 已 经 复制 的 成 员 。 
6) SELECT: 选择 复制 的 数据 集 名 
7) EXCLUDE: 排除 不 需要 复制 的 数据 集 名 。 
【提示 】 SELECT 语句 与 EXCLUDE 语句 不 能 同时 出 现 ， 功 能 相反 。 
【 例 4.4] 
和 stu2 数据 集 。 
libname jx 'd:jx'; P* E USE SR PES / 
libname sy 'd:\test'; /# 创 建 目 标 逻辑 库 %/ 


data jx.stu; 
input id name $ class; 
cards; 
1001 高 兴 1 
1002 你 好 1 
run; 
data jx.stu2; 
input id name$ class; 
cards; 
1001 董 好 2 
1002 刘 小 名 2 


run; 
JAH copy ERE & BAGERA H PREJE 
proc copy in-jx out=sy move; 


/*in= 指 定 源 逻 辑 库 名 ，out= 目 标 逻 辑 库 名 ，move 选择 指定 复制 成 功 从 源 逻 辑 库 删 除 复制 的 数 1 
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IT 
I 


复制 jx 逻辑 库 中 的 数据 集 stu 和 stu2 到 逻辑 库 mb 中 ， 并 从 sy 逻辑 库 删除 stu 


Tint 
* 
~ 


select stu stu2; 
族 选 择 复制 的 数据 集 名 */ 


run; 
【程序 解读 】 


1) 调用 copy 过 程 ，in= 指 定 源 逻 辑 库 名 ，out= 目 标 逻 辑 库 名 。 
2) move 选项 指定 后 ， 数 据 集 复制 成 功 后 会 从 jx 逻辑 库 中 删除 。 
3) select 语句 指定 选择 stu. 和 stu2 两 个 数据 集 复 制 到 目标 逻辑 库 syo 


4.2.4. SQL 过程 


SQL (Structured Query Language) 过 程 是 SAS 内 部 的 一 个 过 程 ， 相 当 于 数据 库 里 的 存 
储 过 程 ， 功 能 都 封装 在 此 过 程 里 ， 只 需要 通过 过 程 步调 用 就 可 以 运用 此 过 程 。SQL 过 程 也 
:和 外 部 数据 库 进行 交互 的 一 个 过 程 ， 同 时 此 过 程 可 以 对 数据 集 进行 处 理 , 一 些 语句 和 关 
系数 据 库 中 的 SQL 语言 用 法 基本 相同 。 

通过 SQL 过 程 可 以 对 数据 集 或 关系 数据 库 的 表 进 行 查询 、 修改 , 实现 创建 表 、 删除 数据 、 
插入 数据 和 更 新 数据 等 功能 。 

SQL 过 程 可 以 说 实现 了 关系 数据 库 的 结构 化 查询 功能 , 体现 了 SAS 对 大 型 数据 库 管理 系 
统 ( 如 ORACLE、DB2、Sybase) 通用 的 SQL 语言 支持 。SQL 过 程 说 明 ， 如 表 4-3 Br. 

语法 格式 : ”PROC SQL ”< 选项 >; 


部 


数据 操纵 语句 ; 
QUIT; 
表 4-3 SQL 过 程 说 明 
SQL 过 程 操作 语句 功 能 

PROC 过 程 步 开始 处 关键 字 ， 调 用 过 程 语句 
SQL SAS 内 部 编译 好 的 过 程 名 ， 执 行 SQL 语言 
选项 SQL 过 程 具有 的 设置 参数 ， 如 NOPRINT 
数据 操纵 语句 关系 数据 库 结 构 化 语句 或 对 数据 集 操 纵 的 语句 ， 如 查询 
QUIT 告诉 SAS 系统 SQL 过 程 步 结 


【提示 】 SQL 过 程 的 结束 语句 标志 为 “QUIT” 语 句 。 

SQL 过 程 可 以 对 SAS 数据 集 操 作 ， 也 可 以 对 关系 数据 库 中 的 表 操 作 ， 功 能 强大 ， 继 承 了 
关系 数据 库 中 的 SQL 语言 。 

SQL 过 程 中 的 选项 是 控制 SQL 过 程 输出 显示 设置 的 应 用 。SQL 过 程 选 项 及 功能 如 表 4-4 
所 示 。 


表 4-4 SQL 过 程 选项 及 功能 


选 项 功 能 
PRINT 打印 SQL 过 程 的 输出 到 输出 窗口 ， 默 认 选项 
NOPRINT 不 打印 SQL 过 程 的 输出 到 输出 窗 
NUMBER 对 输出 观测 记录 指定 行 号 (ROW) 
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选 项 xj 能 
NONUMBER 对 输出 观测 记录 不 指定 行 号 (ROW) ， 默 认 选项 
INOBS= 指定 输入 的 观测 记录 行 数 ， 取 正 整数 
OUTOBS= 指定 输出 的 观测 记录 行 数 ， 取 正 整 数 
LOOPS= 指定 SQL 过 程 内 循环 的 最 大 次 数 
DOUBLE 指定 在 各 行 插入 一 空 行 
NODOUBLE 指定 在 各 行 不 插入 一 空 行 ， 默 认 选 项 
DQUOTE= 对 双 引 号 中 的 内 容 而 言 ， 取 值 为 ANSI 表示 为 变量 ， 取 值 为 SAS 表示 为 字符 ， 默 认 值 取 SAS 


SQL 数据 操纵 语句 是 对 数据 集 或 关系 数据 库 中 的 表 进 行 处 理 的 语句 ， 同 时 具有 关系 数据 库 
SQL 语言 的 操纵 语句 。 实 际 开 发 和 运用 中 并 不 是 单个 SQL 语句 的 应 用 ， 而 是 多 个 SQL 语句 的 
组 合 应 用 共同 完成 一 个 任务 。 常 用 数据 操纵 语句 如 表 4-5 所 示 。 


表 4-5 常用 数据 操纵 语句 


常用 数据 操纵 语句 功 能 
CREATE TABLE 创建 关系 数据 库 中 的 表 或 SAS 数据 集 
CREATE INDEX 创建 索引 ， 对 大 表 可 以 提高 查询 速度 
CREATE VIEW 创建 视图 
SELECT 查询 关系 数据 库 中 的 表 或 SAS 数据 集 的 信息 
DELETE I 除 关系 数据 库 中 的 表 或 SAS 数据 集中 的 行 记录 
ALTER TABLE 对 表 或 数据 集 的 列 变 量 进行 修改 ， 加 入 列 或 删除 列 
DROP IRE MERRI 
INSERT INTO 重 入 观测 记录 
UPDATE 更 新 表 或 数据 集中 的 对 应 列 值 
DESCRIBE 显示 表 或 视图 的 定义 信息 
CONNECT TO £r So SCR Pe E 
DISCONNECT FROM 断 开 与 关系 数据 库 的 连接 


TT 


【 例 4.5】 查询 学 生成 绩 数据 集 stu_score， 语 文成 绩 大 于 60 分 小 于 80 分 的 显示 及 格 ， 大 
于 等 于 80 分 的 显示 优秀 ， 其 他 显示 不 及 格 ， 数 学 成 绩 大 于 60 分 小 于 80 分 的 显示 及 格 ， 大 于 
等 于 80 分 的 显示 优秀 ， 其 他 显示 不 及 格 ; 英语 成 绩 大 于 60 分 小 于 80 分 的 显示 及 格 ， 大 于 等 
T 80 分 的 显示 优秀 ， 其 他 显示 不 及 格 。 


data stu score; 
Input id name $ chinese math english; 
cards; 
1001 高 兴 58 7890 
1002 马 小 名 78 38 88 
1003 刘 小 华 89 90 87 
1004 董 下 小 60 80 52 
1005 杨 小 名 384551 
1006 张 与 信 99 89 87 
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run; 
FF] SQL 过 程 ， 通 过 case when 语句 实现 */ 
proc sql; 
select ”name as 姓名 , (case when chinese>=80 then RÆ 
when chinese>=60 then ' 及 格 ' 
else “' 不 及 格 ' end) as 语文 ， 
(case when math>=80 then MRA 
When math>=60 then ' 及 格 ' 
else AES end) as 数学 ， 
(case when english>=80 then “' 优 秀 ' 
when english>=60 then ' 及 格 ' 
ele ' 不 及 格 ' end) as 英语 
from stu score; 


quit; 


程序 执行 后 的 结果 如 图 4-4 所 示 。 
【程序 解读 】 
调用 SQL 过 程 , select 语句 中 的 case when 语句 对 变 
量 根据 条 件 处 理 相 应 的 数据 值 。 
【 例 4.6】 北京 地 区 举办 金融 业 羽 毛 球 比 赛 ， 比 赛 成 
绩 如 表 4-6 所 示 。 


忧 秀 
p 
HS 
不 及 
ES 
p 


表 4-6 比赛 成 绩 


B 名 期 结果 《〈 胜 或 负 ) 
金 羽 2012-05-01 HE 
EN 2012-05-01 HE 
金 羽 2012-05-01 负 
Er 2012-05-1 ff 
EN 2012-05-02 HE 
飞翔 2012-05-02 负 
飞翔 2012-05-02 HE 
飞翔 2012-05-02 负 


请 求 出 每 个 对 当前 胜 与 负 的 次 数 ， 显 示 形 式 如 表 4-7 所 示 。 


表 4-7 需求 结果 


队 “名 期 胜 负 
A] 2012-05-01 2 2 
金 羽 2012-05-02 1 0 
飞翔 2012-05-02 1 2 

程序 如 下 : 
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放 羽 毛 球 比赛 结果 数据 集 ym*/ 
data ym; 

length sj $10.; 

input dm $ sj $ jg $; 
cards; 

4] 2012-05-01 胜 
43] 2012-05-01 胜 
4&3] 2012-05-01 ff 
4&3] 2012-05-01 ffi 
43] 2012-05-02 JE 
飞翔 2012-05-02 负 
飞翔 2012-05-02 胜 
飞翔 2012-05-02 负 


run; 
PII SQL 过 程 */ 
proc sql; 


select dm as 队 名 ,sj as 日 期 , sum(case when je=' 胜 ' then 1 else 0 end) "Ht'sum(case when 


jg"fA' then 1 else0 end) ' 负 ' fromym 


group by dm, sj /# 指 定 按 dm 和 sj 列 分 组 */ 
order by dm desc,sj asc; /*J&ETE dm 列 降序 ， 按 sj 列 升序 */ 
quit; 

【程序 解读 】 


调用 SQL 过 程 ， 通 过 SUM 函数 和 case when 语句 的 联合 应 用 实现 对 胜 负 求 和 功能 。 
执行 程序 后 输出 窗口 显示 结果 如 图 4-5 所 示 。 


Bih - (无 标题 ) 


2012-05-01 
2012-05-02 
2012-05-02 


山 


图 4-5 比赛 结果 显示 


4.2.5 report 过 程 


SAS 系统 中 的 report 过 程 是 制作 报表 的 工具 ， 将 print, means 和 tabulate 过 程 的 特点 与 
DATA 步 报告 写法 的 特点 结合 起 来 组 合成 了 一 个 强大 的 生成 报表 的 工具 。 
语法 格式 : PROC REPORT < 报表 选项 >; 
常用 报表 设置 语句 ; 
RUN; 


1. 报表 选项 
报表 选项 是 进行 报表 开发 时 设置 报表 属性 以 及 制定 数据 集 的 选项 , 属于 可 选项 , 如 表 4-8 
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所 示 。 


表 4-8 常用 报表 选项 及 说 明 


报表 选项 说 — Hj 
data= 指定 数据 集 
headline 指定 在 抬头 行 和 第 一 个 细 目 行 之 间 输 出 一 行 下 画 线 
headskip 指定 在 抬头 行 和 第 一 个 细 目 行 之 间 输 出 一 空白 行 


2. 常用 报表 设置 语句 


常用 报表 设置 语句 是 report SEE 


设置 语句 及 说 明 如 表 4-9 所 示 。 


需要 生成 各 类 报表 需要 的 报表 设置 语句 。 常 用 


表 4-9 常用 报表 设置 语句 及 说 明 


Fa 


常用 报表 设置 语句 说 Hj 
title 指定 报表 标题 信息 
title2 指定 报表 副标题 信息 
break 控制 一 个 分 组 变量 或 次 序 变 量 的 值 改变 时 的 中 断 作 
by 根据 by 指定 变量 分 组 生成 单独 报表 
column 指定 报表 列 显 示 顺 序 
compute 定义 计算 变量 ， 并 执行 计算 ， 或 生成 中 断 行 
define 定义 变量 并 对 变量 指定 类 型 
freq 求 出 指定 变量 的 频数 
rbreak 对 报表 过 程 产生 一 个 概括 统计 
weight 求 出 变量 的 权重 

【 例 4.7】 房价 经 济 指数 数据 ， 环 比 与 同比 、 定 基数 据 生成 报表 。 


libname re 'd:\jx'; 


data re.house; 


input city $ hb index same index def index; 


cards; 

北京 99.9 100.3 102.4 
天 津 99.8 100.2 103.1 
秦皇岛 99.8 100.5 106.3 
石家庄 99.7 101.3 107.7 
包头 99.8 100.0 103.9 
太原 100.0 100.9 101.7 


run; 

proc print data-re.house; 
run; 

[iji] H] report 过 程 生 成 报表 */ 


proc report data=re.house headline headskip; 


title ' 六 个 大 中 城市 住宅 销售 价格 指数 (2012 年 2 Hy; 
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title2 ' 单 月 城市 销售 价格 '; 


column city hb index same index def index dif, 


define 
define 
define 
define 
define 


city /order format-$6. width=6 ' 城 市 '; 
hb index/display format=5.1  width-5 ' 环 比 '; 
same index/display format-5.1  width-5 ' 同 比 '; 
def index/display format-5.1 width=5 ' 定 基 '; 
dif/computed format-5.1  width-5 ' 差 比 '; 


compute dif; 


dif-same index-hb index; 


endcomp; 


run; 


【程序 解读 】 
1) headline: 指定 表 头 画 线 。 


2) headskip: 指定 一 空 行 。 


3) title: 指定 主 标题 。 


4) title2: + 
5) column: 


6) define: 


肯定 副标题 。 
指定 报表 显示 列 。 
对 报表 显示 列 定义 属性 。 


7) compute: 指定 计算 列 ， 其 结束 语句 为 endcomp。 
4.2.6 ”freq 过程 


计数 资料 的 统计 推断 ， 常 用 的 是 freq 过 程 。freq 过 程 主要 用 于 两 个 目的 : 一 是 描述 分 析 ， 
产生 频数 表 和 列 联 表 ， 可 简单 地 描述 数据 ;二 是 统计 推断 ， 产 生 各 种 统计 量 ， 可 分 析 变 量 间 
的 关系 。freq 过 程 可 以 创建 单 向 频数 表 、 双 向 和 n 向 交叉 表 。 它 还 可 以 计算 关联 测度 和 一 致 


性 测度 ， 并 依据 分 层 变 量 排列 输出 。 

语法 格式 : ”PROC FREQ ”< 选项 >; 
BY 变量 1 < 变量 2>.. .< 变量 n; 
EXACT 统计 选项 </ 计 算 选 项 >; 
OUTPUT <out= 数 据 集 名 > 选项 : 
TABLES requests </ 选 项 >; 
TEST 选项 ; 
WEIGHT 变量 名 </ 选 项 >; 

RUN; 
【语法 解读 】 


FREQ: 过 程 步 所 调用 的 过 程 名 。 
BY: 指定 分 组 变量 ， 通 过 单独 分 组 后 对 每 个 组 单独 分 析 。 
EXACT: 指定 精确 测试 。 


OUTPUT: 


指定 输出 数据 集 。 


tables: tables 语句 是 freq 过 程 中 非常 重要 的 一 条 语句 。 在 一 个 PROC FREQ 过 程 中 ， 可 


以 有 任意 多 个 tables 语句 。 如 果 没 有 tables 语句 ，FREQ 对 数据 集中 的 每 个 变量 都 生成 一 个 单 
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向 频数 表 ;， 如 果 tables 语句 没有 任何 说 明 选 项 (options) , freq 对 tables 语句 中 规定 的 变量 的 每 
个 水 平 将 计算 频数 、 累 计 频 数 、 占 总 频数 的 百分数 及 累计 百分数 。tables 语句 中 ,用 request (s) 
指定 制 表 要 求 。 可 以 是 用 * 连 接 起 来 的 一 个 变量 或 多 个 变量 ， 一 个 tables 语句 中 可 以 给 出 任意 
多 个 制 表 要 求 。 在 TABLES 语句 的 斜 枉 〈/) 后 面 可 以 使 用 的 常用 选项 如 下 。 

CHISQ: 进行 卡 方 检验 (Chi-Square Test) 。 

Fisher: 对 大 于 2X2 的 表 进 行 Fisher 的 精确 检验 。 

ALPHA-p: 确定 置信 区 间 的 水 平 是 100 CI-p) % 的 置信 区 间 ， 默 认 p=0.05。 

ALL: 对 所 有 由 CHISQ. MEASURES 和 CMH 选项 给 出 的 检验 和 度量 

其 他 选项 有 NOCOL、NOROW、NOPERCENT、NOFREQ。 

TEST: 指定 相关 的 计算 关联 测度 和 一 致 性 测度 。 

WEIGHT: 指定 一 个 权重 变量 。 

【 例 4.8】 根据 班级 分 组 ， 求 出 每 个 班级 的 频数 。 


o 


libname | jx'd:x'; 
data jx.class; 

input class name $ math english chiness; 
cards; 

1 高 洪 897899 

1 王 红 与 784532 
李 小 心 74 72 78 
马 小 名 87 98 86 
刘 小 红 56 82 83 
epu? 88 91 92 
杨 小 青 78 56 87 
张 峰 余 56 78 23 
赵 晓 霞 90 98 96 


1 
2 
2 
2 
3 
3 
3 


run; 
H freq 过 程 对 数据 集 分 析 */ 
proc freq data=jx.class; 
by class;/* 按 class 班级 分 组 ， 求 出 每 个 班级 的 频数 */ 

run; 

【程序 解读 】 

1) data=: 选项 指定 要 求 频 数 的 数据 集 。 
2) by: 指定 按 class 班级 分 组 变量 。 
【 例 4.9】 投掷 硬币 的 实验 ， 投 掷 实 验 100 次 ， 出 现 的 正面 和 反面 次 数 如 表 4-10 所 示 。 


表 4-10 投掷 硬币 实验 


组 ”名 IE M hood 
甲 组 49 50 
乙 组 52 48 
AH 47 53 


91 


data yb; 
input group $ row colm fre; 
cards; 


1149 
1250 
2152 
2248 
3147 
32/53 


mri HH Bn Bu BB Bu 


AS AS MB MB ML MT 


HANN 


run; 
proc print; 
run; 
人 # 调 用 freq 过 程 ， 进 行 频 数 分 析 */ 
proc freq data=yb; 
tables ”group*row * colm;/* 指 定制 表 列 */ 
weight ”fre;/* 指 定 分 析 权 重 为 fre*/ 


run; 
【程序 解读 】 


1) tables 语句 指定 指标 列表 ， 首 先 按 group 分 组 后 绘制 row 和 colm 组 成 的 表 。 
2) weight 语句 指定 分 析 权 重 为 fre。 


4.2.7 summary 过 程 


summary 过 程 主要 用 来 对 数值 变量 计算 单个 变量 的 基本 统计 量 ， 使 用 语句 与 means 过 程 
类 似 。 默 认 时 summary 过 程 步 打印 输出 计算 结果 。 如 果 想 打印 输出 计算 结果 ， 必 须 指定 print 
选项 。 

语法 格式 : PROC SUMMARY < 选项 >< 统 计 关 键 量 >; 

VAR 变量 名 1 < 变量 名 2>...; 
BY 变量 名 1 < 变量 名 2>...; 
CLASS 变量 名 1 < 变量 名 2>...; 
FREQ < 变量 名 >; 
WEIGHT < 变量 名 >; 
ID 变量 名 1 < 变量 名 2>.….; 
OUTPUT <OUT= 数 据 集 名 > < 选项 >; 


RUN; 
【语法 解读 】 


D ) < 选项 >: 常用 选项 如 下 。 
data=: 指定 分 析 的 数据 集 。 
maxdec=: 输出 小 数 点 位 数 。 
missimg : 要 求 遗漏 数据 作为 class 变量 下 的 一 个 分 组 处 理 。 
print: 指定 打印 输出 到 输出 窗口 ， 默 认 不 打印 输出 结果 到 输出 窗 
nway: 不 对 class 变量 中 的 统计 量 计 算 输出 。 

92 


2) < 统计 关键 量 >: 常用 统计 关键 量 如 下 。 
n: 有 效 观 察 值 个 数 。 

nmiss: 遗漏 数据 个 数 。 

mean: 均值 。 


std: 标准 差 。 
min: 最 小 值 。 
max: 最 大 值 。 


range: 极 差 。 

sum: 观测 值 总 和 。 
ar: 样本 方差 82。 
uss: 总 平方 和 。 

css: 总 离 差 平方 和 。 
stderr: 均值 的 标准 误 。 
cv: 变异 系数 smean。 


T: t 检验 HO: 均值 =0 prt---t 检验 显著 性 。 


3) 其 他 语句 参考 means 过 程 ， 功 能 类 似 。 
【 例 4.10】 取出 数据 集 完全 重复 的 数据 。 


data information; 
input name $ class math; 


高 小 红 1 89 
董 与 名 278 
高 小 红 2 89 
高 小 红 1 89 
HR 199 
高 小 红 1 89 


此 取出 数据 集 完全 相同 的 重复 数据 */ 


class name class math; /* 分 组 变量 */ 


output out-cf(drop- type ^ where-( freq >1)); JEER WHH 


run; 
proc print data=cf;/* 打 印 输出 结果 */ 
run; 

【程序 解读 】 


1) nway: 选项 很 重要 
2) class: 指定 分 组 变量 。 


3) output: 指定 输出 分 析 结 果 ，out= 指 定 输 
4) where=(_freq >1): 条 件 语 句 ， 取 出 重复 记录 条 件 。 


通过 此 选项 去 掉 不 完全 重复 的 统计 记录 。 


8 到 的 数据 集 名 。 


重复 的 统计 记录 */ 


proc summary data=information nway; /*nway 去 掉 不 完全 


E cf 保存 */ 
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【 例 4.11】 学 校 学 生体 检 数 据 的 分 析 。 


data 


Input 


students; 


Cards; 


235 16242f 


group 


age height 


1 31 173 43 m 


24215656f 
153 15239 f 


14217363m 


1 28 165 55 f 
2 33 157 66 f 
2 17 162 46 f 


1 16 173 45 m 
1 25 180 66 m 


, 


run; 


Ps f 


proc 
by 


Ps 


proc 


入 指定 统计 关键 量 mean 


weight 


H sort 过 程 首 先 对 数据 集 排 


sort data-students; 


sex $ ; 


px 


T" 


i| 


group; /*by JAJEK H 
H Summary 过 程 */ 


Summary data=students 


mean 


var age height weight; /* 指 定 分 析 变 量 */ 


class 


run; 


sex; 


/# 指 定 分 类 变量 ，class 4 
by group; /*by 指定 分 组 变 
output 
proc print 


out-stu analy ; 


data-stu analy; 


E 
量 


入 打印 分 析 结 果 光 


程序 执行 后 的 结果 如 图 4-6 所 示 。 


Bi 输出 一 


e 
c 
的 


co dc» Cn qe COO — Coco 00 d 02 cn p Co P5 — 


(无 标题 ) 
£roup sex 

1 

1 

1 

1 

1 

1 f 

1 f 

1 f 

1 f 

1 f 

1 m 

1 m 

1 m 

1 m 

1 m 

? 

H 

2 

2 

2 

2 f 

2 f 

2 f 

2 f 

2 f 

图 4-6 


=== O M M M OOOO 


AWPE. 


SAS IE 
-FREG. 


Fa p a De Pe Pe De Pe D Du De De f m fu PO MO SO 2 S2 CO G2 2 O2 2. 
Es 
m 
i 
zm 


-STAT. 


std n max min range stderr cv */ 


E32& 不 分 fm( 以 空 
， 产 生 两 类 : 1 和 2。 以 上 两 行 语句 分 成 6 个 水 平 组 合 进 


std n max min range 


summary 过 程 对 students 的 统计 分 析 


; 对 by 变量 的 值 排序 (字母 升序 ) */ 


stderr cv; 


显示 ) 及 fm */ 


Dor) 


66.0000 
52.5000 
10.7548 


| > 


行 统计 */ 


【程序 解读 】 
1) 调用 summary 过 程 对 数据 集 students 进行 分 析 。 此 程序 指定 了 统计 关键 量 : mean CR 
均值 ) 、std〈 求 标准 差 ) 、n (有 效 观 察 值 个 数 ) 、max CRAE) ~ min CRAME) ~ range 
( 极 差 ) stderr 〈 均 值 的 标准 误 ) 和 cv《〈 变 异 系数 ) 。 
2) Var 语句 指定 分 析 变 量 为 age CFE) height 〈 身 高) 和 weight (体重 ) 。 
3) Class 指定 分 类 变量 ， 根 据 sex CEID 分 类 ， 产 生 3 类 , 不 分 fm〈 以 空白 显示 ) , 6 m. 
4) By 指定 分 组 变量 ， 根 据 group OME) 产生 两 类 : 1 和 2。 每 一 类 产生 3 
水 平 组 合 进行 统计 。 
5) Output 指定 输出 结果 到 数据 集 。 
6) 调用 print 过 程 打印 输出 结果 到 输出 


E 
o 


4.2.8 compareXi fé 


compare 过 程 主要 用 来 比较 两 个 数据 集 的 内 容 。 
语法 格式 : PROC COMPARE < 选项 >; 
VAR 变量 名 1 < 变量 名 2>...; 
BY 变量 名 1 < 变量 名 2>...; 
D 变量 名 1 < 变量 名 2>...; 
WITH 变量 名 1 < 变量 名 2>... 


RUN; 
【语法 解读 】 
1) 调用 compare 过 程 。 
2) < 选项 >: 常用 选项 如 下 。 
base=: 指定 基本 数据 集 ， 省 略 时 取 最 新 数据 集 。 
compare=〈 可 以 简写 为 c 或 comp) : 指定 比较 数据 集 。 
Out=: 指定 输出 数据 集 ， 把 匹配 变量 的 差 值 结果 输出 到 指定 数据 集 。 
Onutstats=: 把 匹配 变量 的 概括 统计 量 输出 到 指定 的 数据 集 。 
Noprint: 不 打印 输出 到 输出 窗口 。 
Nomissing|nomiss: 此 选项 判断 缺失 值 与 任何 值 相 比较 都 相等 。 省 略 时 ， 则 一 个 缺失 
值 仅 与 另 一 个 同类 的 缺失 值 相 等 。 
Brief: 打印 一 个 简短 的 摘要 。 
3) WITH 语句 : 两 个 数据 集中 对 应 变量 的 变量 名 不 一 致 时 用 WITH 语句 列举 他 们 的 名 字 。 
WITH 语句 必须 与 VAR 语句 一 起 使 用 ，WITH 语句 的 第 一 个 变量 对 应 VAR 语句 中 的 第 一 个 
【 例 4.12】 比较 学 生 信息 数据 集 stul 和 stu2 的 差异 。 


data stul; 
Input group age height weight sex$; 
cards; 
23516242f 
13117343m 
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24215656f 
153 152 39 f 


run; 
data stu2; 

Input group2 age height weight sex $; 
Cards; 
2 35 162 42 f 
1 31 173 43 m 
2 42 156 56 f 


run; 
proc compare base=stul c-stu2 out=cy  brief/*brief 选项 打印 差异 摘要 信息 */ 
Var group; 

With group2; 

run; 


程序 执行 后 的 结果 如 图 4-7 所 示 。 
ub - (无 标题 ) 


(METHOD-EX, A 


OTE: 数据 集 WORK. STUL 包含 1 CTE "WORK.STUP" PRIN. = 
OTE: 未 找到 不 等 值 。 所 有 比较 的 值 都 完全 相等 。 


图 4-7 数据 集 比较 摘要 信息 


【程序 解读 】 
1) 调用 compare 过 程 ，base=stul 指定 基本 数据 集 ，c=stu2 指定 比较 数据 错 
2) Out= 指 定 差异 输出 结果 到 此 数据 集 。 
3) Brief: 指定 打印 摘要 信息 ， 如 果 4-7 所 示 的 信息 。 
4) Var group: 指定 用 于 比较 数据 集中 相 匹 配 的 变量 列表 ， 此 语句 只 指定 了 group 变量 ， 
比较 group 变量 差异 。 
5) WITH 语句 : 两 个 数据 集中 对 应 变量 的 变量 名 不 一 致 时 ， 用 WITH 语句 列举 他 们 的 名 


Am 
o 


m 


E. 
4.2.9 datasets 过 程 


datasets 过 程 主要 用 来 对 SAS 逻辑 库 中 的 SAS 文件 进行 列表 、 复 制 、 换 名 、 添 加 和 删除 
等 操作 。 此 过 程 具 有 append 过 程 、contents 过 程 和 copy 过 程 的 功能 。 

Datasets 过 程 的 主要 功能 如 下 : 

1) 对 SAS 逻辑 库 中 的 数据 集 从 一 个 逻辑 库 复 制 到 另 一 个 逻辑 库 中 。 

2) 对 SAS 文件 进行 重 命名 。 

3) 修复 损坏 的 SAS 文件 。 

4) 删除 SAS 文件 。 
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all、 


5) 列 出 某 一 SAS 逻辑 库 中 所 有 的 SAS 文件 。 
6) 列 出 某 一 SAS 数据 集 的 属性 ， 如 最 近 修 改 时 间 、 数 据 是 否 压缩 、 数 据 是 否 索 引 等 。 
7) 对 SAS 文件 设置 密码 的 操作 。 
8) 向 SAS 数据 集 添加 记录 。 
9) 对 SAS 数据 集 的 属性 以 及 数据 集 内 变量 的 属性 进行 修改 。 
10) 创建 或 删除 SAS 数据 集 的 索引 。 
11) 创建 并 管理 SAS 数据 集 的 核查 文件 。 
12) 创建 或 删除 SAS 数据 集 的 完整 性 规则 。 
语法 格式 : PROC DATASETS ”< 选项 >; 
APPEND base= 目 标 数据 集 <data= 妃 加 数据 集 ><force>; 
CHANGE 旧 变 量 名 = 新 变量 名 ; 
CONTENTS «data? $8 Fi X 44; 
COPY in-iZ REPE, ou 人 = 逻辑 库 名 < 选项 >; 
SELECT 选择 数据 集 名 ; 
EXCLUDE 排除 数据 集 名 ; 
DELETE 删除 的 数据 集 名 ; 
MODIFY 修改 数据 集 名 < 选项 >; 
FORMAT 变量 1 类 型 ..; 
INDEX CREATE 索引 名 -< 变量 ></<unique><nomiss>>; 
INDEX DELETE 索引 名 ; 
INFORMAT 变量 1 类 型 ..; 
LABEL 变量 名 1=?: 标 签 信息 .….; 
RENAME 变量 名 = 新 变量 名 .….; 
SAVE 数据 集 名 </memtype=mtype>; 


RUN; 
【语法 解读 】 
1) < 选项 >: 常用 选项 如 下 。 
Library=: 指定 逻辑 库 , 给 出 要 处 理 的 SAS 逻辑 库 。 省略 此 选项 时 处 理 当 前 work 逻辑 库 。 
Memtype-: 可 以 简写 为 mtype 或 mt， 规 定 一 个 或 几 个 用 于 处 理 的 文件 类 型 。 可 以 取 值 


catalog. data, access. view 和 program. 

Kill: 删除 SAS 逻辑 库 中 的 所 有 成 员 。 

Force: 对 于 append 语句 中 ，force 强制 追加 数据 。 男 一 个 功能 是 有 语法 错误 时 强制 退出 。 
Nolist: 阻止 列 出 在 SAS 的 日 志 中 正在 处 理 的 成 员 。 

Pwe: 给 予 数 据 库 访 问 密码 。 

Reade: 给 出 读数 据 库 的 访问 密码 。 

Alter=: 给 出 修改 密码 。 

2) APPEND 语句 : 追加 一 个 数据 集 到 base= 语 句 指定 的 数据 集中 。 
3) CHANGE 语句 : 改变 数据 集 变 量 的 名 字 。 
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4) CONTENTS 语句 : 查看 指定 的 数据 集 信 
5) COPY: 复制 in= 风 辑 库 的 数据 集 到 out-TR XE T3 48 
6) SELECT: 选择 要 处 理 的 数 所 
7) EXCLUDE: 指定 要 排 
删除 的 数据 
侈 改 的 数 


t5 cz dH 


8) DELETE: 指定 要 
9) MODIFY: 指定 要 


El 


J^ o 


库 中 。 


ER 
除 的 数据 集 。 
化 


Ro 


nfi. 


100 FORMAT: 对 变量 指定 输出 格式 。 


11) INDEX: 对 索引 


通过 create 创建 ， 


通过 delete 删除 。 


12) INFORMAT: 指定 输入 格式 。 
13) LABEL: 对 变量 定义 标签 。 


E 


FH 


14) RENAME: 对 变 


修改 名 字 。 
15) SAVE: 指定 要 保存 的 数据 集 


o 


【 例 4.13】 复制 逻辑 库 sashelp 中 的 数据 集 air ~ afmsg 和 adomsg 到 逻辑 库 jxo 


libname jx 'd:jxWMest' 


E 


proc datasets memtype-data; 


copy in-sashelp out-jx; /*}E sashelp J£ 48 P IF 48 Rf 
select airafmsg  adomsg; 


run; 


【程序 解读 】 


Z 


J£ 
fi air afmsg adomsg &fji 


+a 


| jx 248) 
| 到 逻辑 库 jx*/ 


族 选 择 数 


1) memtype-data: 选项 指定 选择 data 类 型 数据 。 


语句 


2) copy 


3) select 指定 选择 数据 集 air、 
Æ jx 中 的 表 afmsg 和 adomsg。 


【 例 4.14】 删除 逻辑 


libname jx 


中 in= 指 定 要 复制 的 逻辑 


库 ，ou 人 目标 逻辑 库 。 
afmsg 和 adomsg 三 个 数据 集 ， 复 制 到 逻辑 


'd:\jx\test'; 


proc datasets library=jx memtype=data; 


delete afmsg adomsg;/*}E jx X£ 48 e rP I] 


quit; 


【程序 解读 】 


iu 


E afmsg 和 adomsg 删除 */ 


1) 选项 library=jx 指定 要 操作 的 逻辑 库 对 象 。 


2) Delete 语句 指定 要 删 


除 的 数据 集 afmsg 和 adomsg。 


4.2.10 surveyselect 抽 样 过 程 


在 数据 挖掘 模型 过 


程 中 ， 


有 时 无 法 对 所 有 的 整体 进行 全 面 研究 ， 通 常 将 整体 划分 为 j 


集 、 验 证 集 、 测 试 集 用 于 不 同 


为 K 份 数 所 


整 群 


I 样 。 
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WE. SAS 通过 SURVEYSELECT 过 程 进行 
(simple random sampling)、 系 统 抽样 (systematic sampling)、 分 
IFÉ Cclustering sampling), SAS 系统 


目的 数据 集 ， 甚 至 在 K- 折 交叉 验证 中 ， 需 要 把 样本 随机 地 蕊 


, 


| 练 


分 


样 ， 常 用 的 抽样 有 单纯 随机 


UE 


层 抽 样 (stratified sampling 


"Án 


38 


过 PROC SURVEYSELECT 3: f& SE 9j Xi 


J$ 


BAS 


语法 格式 : PROC SURVEYSELECT; 
Strata 变量 ; 
id ”变量 ; 

RUN; 

【语法 解读 】 

1) < 选项 >: 常用 选项 如 下 。 

data=: 指定 输入 数据 集 。 

Method=: 指定 抽样 方法 ， 如 srs、sys 和 urs。 

out-: 指定 抽取 样本 存放 的 数据 集 。 

n=: 指定 抽取 数量 。 

samprate=: 指定 抽样 比例 。 

seed=n: 指定 随机 数 。 

2) strata 语句 : 指定 分 层 变 量 。 

3) id 语句 : 指定 抽取 样本 所 保留 的 源 数 据 集 变量 。 

【 例 4.15】 从 1 万 个 样本 中 按 随机 数 100 抽取 数据 ， 选 择 简 单 随机 


data sj; 

Do i=1 to10000; 

output ; 

end ; 

run; 

让 随机 抽样 */ 

proc surveyselect 
data —sj 
method = srs 
n- 100 
out-cys| seed =100; 


run; 


【程序 解读 】 

1) methodesrs: 指定 选择 简单 随机 抽样 。 
2) n=100: 指定 抽样 样本 个 数 100 个 。 
3) out=cysj: 指定 抽样 数据 保留 到 此 数据 集 。 
4) seed=100: 指定 抽样 随机 数 为 100。 

【 例 4.16】 对 例 4.15 改造 ， 简 单 随机 抽样 ， 按 20% 的 比例 抽取 。 


Am 


proc surveyselect 
data —sj 
method = srs 
samprate-0.2 
out-cysj2 seed -100; 


UE 
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【程序 解读 】 


samprate-0.2: 指定 按 20% 的 比例 


4.2.11 format 过 程 


format 过 程 主要 用 来 定义 数值 


数据 步 直 接 引 用 ， 以 便于 输出 的 Output 更 易于 


取 。 


只 是 “定义 ”六 
两 个 程序 步 又 


€ 在 DATA 中 的 INPUT fll FORMAT 语句 中 应 用 定义 的 
€ 在 PROC 中 的 FORMAT 叙述 语句 中 应 用 。 


语法 格式 : 


value 变量 


invalue 


picture 4*5 


并 不 会 自动 输出 至 Output, ZH 


或 符号 文字 


的 输出 和 输入 格式 ， 定 义 好 的 变量 类 型 可 以 在 
了 解 及 阅读 。 在 使 用 此 程序 时 ， 注 意 
H PROC FORMAT 宣告 的 输出 格式 ， 配 合 以 下 


(CStep) 相对 应 的 宣告 值 使 用 : 


PROC FORMAT < 选项 >; 


1 < 输出 格式 选项 > 范围 1=" 格 式 值 .. 
Ff 1< 输 入 格式 选项 > 范围 1=， 格式 值 ，， edi 


select “选择 格式 列表 ”; 
exclude “选择 格式 列表 ”; 


RUN; 


【语法 解读 】 


D < 选项 >: 常用 选项 如 下 。 


(D CNTLIN=: 


入 控制 数据 集 。 


2) CNTLOUT-: SAS 输出 数据 集 名 ， 指 定 一 个 包含 可 月 
出 控制 数据 集 。 不 指定 逻辑 库 时 输出 控 

(3 LIBRARY=: 指定 逻辑 库 。 
定义 变量 输出 格式 ， 定 义 好 的 变量 可 以 在 数据 步 引 用 。 

定义 变量 输入 格式 ， 定 义 好 的 变量 可 以 在 数据 步 
4) picture: 给 出 定义 的 图 示 输 出 格式 。 
选择 给 出 的 输入 /输出 格式 芯 
6) exclude: 排除 给 出 的 输入 /输出 格式 的 目录 子 集 ， 
【 例 4.17】 通过 format 过 程 实现 卡 编号 


ET 
E> 
E 


2) value: 
3) invalue: 


5) select: 


可 以 在 函数 中 应 用 。 


这 个 程序 


量 名 1 < 输出 格式 选项 > 范围 1]= ?格式 值 ….; 


SAS 输入 数据 集 名 ， 指 定 一 个 包含 
CNTLIN= 提 供 的 产生 输入 /输出 格式 的 方式 不 需 
语句 中 规定 所 有 信息 。 


制 数据 集 存储 到 work 逻辑 库 


号 转换 。 在 数据 步 应 月 


/*Format 过 程 定 义 card_type 类 型 */ 


proc 


format; 


value card type 


700 


1001—3£- 
1002=' 金 
1003=' 白 金 卡 ' 
1004=' 国 航 联名 卡 ' 
1005=' 标 白 

RUN; 


HA UN UU 


Œ value. picture 或 invalue 


i 出 和 输入 格式 的 信息 


H 
o 


定义 的 变量 类 型 。 


DATA card; 
Input id bh; 
cards; 
1001 345 
1002 456 
1003 870 
1004 987 
1005 876 
run; 
/# 数 据 集 card 引用 format 过 程 定 义 的 类 型 card. type*/ 


data trans card; 


set card; 
idbh-put(id,card type.);/* | Fd card type 类 型 */ 
run; 
PETER, TUEdES/ 


proc print data-trans card; 


Bat- (无 标题 ) ox] 


run; 


程序 执行 后 ， 通 过 打印 过 程 输出 显示 数据 集 信 息 ， 如 

图 4-8 所 示 。 
【程序 解读 】 

1) 调用 foramt 过 程 ， 通 过 value 语句 定义 变量 输出 
格式 card_type， 并 指定 变量 值 的 范围 。 

2) 数 据 步 对 数据 集 card 处 理 , idbh=put(id,card type.); 
引用 format 过 程 定义 的 类 型 card type, dE id 号 转换 为 
card type 输出 格式 的 变量 

【 例 4.18】 学 生成 绩 显示 应 用 ， 小 于 60 分 显示 不 及 格 ， 大 于 等 于 60 分 小 于 80 分 为 良 
好 ， 大 于 等 于 80 分 为 优秀 。 


图 4-8 类 型 转换 


jum 


o 


proc format; 

value scor dese 0-<60=' 不 及 格 ' 
60-<80=' 良 好 
other=' 优 秀 '; 


run; 
data stu score; 
input id name $ score; 
cards; 
1001 高 宏 58 
1002 马 小 名 60 
1003 刘晓华 80 
1004 董 青青 90 
1005 杨峰 78 


, 
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/# 打 印 过 程 调用 format 过 程 定 义 的 类 型 ， 通 过 foramt 语句 引用 类 型 */ 
proc print data-stu score; 
format score scor desc.;/*format 语句 引用 format 过 程 定义 的 类 型 */ 


run; 
z= pu 一 E3 - 【无 标 
程序 执行 后 ， 输 出 窗口 显示 如 图 4-9 所 示 。 Mn. CLE 
【程序 解读 】 
1) foramt 过 程 定义 变量 类 型 scor desc， 上 具体 的 值 范 


围 直接 列 出 。 
2) print 打印 过 程 中 通过 format 语句 对 数据 集 变量 
score 定义 为 scor_desc. 类 型 作为 输出 格式 。 


4.2.12 ”sort 过 程 图 4-9 stu score 信息 输出 显示 


sort. 过 程 将 数据 集中 某 一 个 变量 或 儿 个 变量 的 按 升序 或 降序 重新 排列 ， 并 把 结果 存储 到 
输出 数据 集中 。 如 果 不 另 外 指定 输出 数据 集 ， 则 覆盖 输入 数据 集 。 在 data 数据 步 和 proc 过 程 
步 的 某 些 操作 中 ， 当 需要 用 到 by 语句 时 ， 一 般 都 需要 源 数 据 集 按照 by 语句 中 的 变量 事先 排 
序 ， 这 里 就 需要 用 到 sort 过 程 。sort 过 程 先 检查 输入 数据 集 的 排序 信息 ， 特 别 是 sortedby= 选 
项 ， 如 果 输 入 数据 集 提示 已 经 按照 by 变量 进行 过 排序 ， 或 者 sort 过 程 检测 到 数据 集中 记录 的 
顺序 按照 by 变量 本 来 就 是 有 序 的 ， 则 sort 过 程 不 进行 排序 ， 直 接 将 输入 数据 集 复制 到 输出 数 
据 集 中 。 另 外 ， 如 果 输 入 数据 集 在 by 变量 上 已 经 创建 索引 ， 则 也 不 进行 排序 ， 因 为 排序 之 后 
会 破坏 原来 的 索引 。 除 此 之 外 ，sort 过 程 才 会 进行 排序 。 如 果 用 户 强制 sort 过 程 进行 排序 就 需 
要 用 到 force 选项 了 。 

语法 格式 : PROC sort < 用 户主 机 环境 >< 选 项 >; 

BY <DESCENDING> 变量 1 <...<DESCENDING> 变量 n>; 

RUN; 

【语法 解读 】 

1) < 用 户主 机 环境 >: 指 除 ASCII 或 EDCDIC 之 外 的 排序 序列 。 

2) < 选项 >。 

O 常用 数据 集 选项 如 下 。 

data=: 指定 要 排序 的 数据 集 ， 默 认 时 使 用 最 近 创建 的 数据 集 。 

outs: 指定 排序 后 输出 的 数据 集 名 字 ， 默 认 时 表示 排序 后 覆盖 源 数 据 信 

D 常用 排序 序列 选项 如 下 。 

sortseq-: 指定 排序 的 序列 , 这 跟 使 用 的 操作 系统 有 关 ，Windows/UNIX 都 是 ASCH 编码 。 
一 般 这 个 选项 默认 就 可 以 ， 也 可 以 直接 在 sort 过 程 后 面 加 上 编码 名 称 。 

@ 常用 修改 排序 次 序 选项 如 下 。 

reverse: 使 用 由 正常 排序 序列 相反 的 排序 序列 对 字符 变量 进行 排序 ， 可 以 被 by 语句 中 的 
descending 选项 取代 ，reverse 只 能 用 于 字符 变量 。 

equals|noequals: 规定 输出 数据 集中 具有 相同 by 变量 的 那些 记录 的 次 序 ，equals 选项 是 保 
持 在 输入 数据 集中 原来 的 相对 次 序 ， 而 noequals 选项 则 没有 这 一 限制 。 

(4) 常用 删除 重复 记录 选项 如 下 。 
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Noduprecs: 删除 重复 的 记录 ， 发 生 在 排序 后 ， 将 完全 相同 的 记录 删除 。 

nodupkey: 删除 重复 的 by 变量 记录 ， 发 生 在 排序 中 ,根据 by 指定 的 变量 判断 ，sort 过 程 
读 取 输入 数据 集中 的 记录 ， 在 写 入 输出 数据 集 时 先 比较 by 变量 值 ， 如 果 有 重复 则 写 入 输出 数 
据 集 。 

© 其 他 常用 选项 如 下 : 

Datecopy: 保留 数据 集 创建 或 修改 的 日 期 。 

Force: 强制 排序 选项 ， 不 管 输入 的 数据 集 是 否 已 经 排序 或 有 索引 ， 都 进行 重新 排序 。 

by: by 语句 指定 排序 变量 顺序 ， 默 认 情 况 下 是 按照 变量 进行 升序 排列 〈ascending)， 降 
序 则 要 用 descending 指明 。 特 别 是 这 两 个 关键 字 应 该 写 在 变量 的 前 面 ， 而 其 他 语言 可 能 相反 ， 
如 SQL 将 排序 关键 字 放 在 变量 之 后 。 

【 例 4.19】 去 除 学 生 数 据 集 完全 重复 的 记录 ， 输 出 到 数据 集 stu_order。 


data stu; 
Input id name $ score; 
cards; 
1001 高 宏 58 
1002 马 小 名 60 
1003 刘晓华 80 
1004 董 青青 90 
1005 杨峰 78 
1006 杨峰 98 
1003 刘晓华 80 


pay 


run; 


/*sort 过 程 通过 noduprecs 去 除 完 全 相同 的 记录 ， 结 果 输 出 到 数据 集 stu_order*/ 
proc sort data-stu out=stu order noduprecs ; 


by name; 
【程序 解读 】 
1) out=: 指定 排序 后 数据 集 输出 到 stu. order 数据 集 ， 不 才 盖 原 数 据 集 。 
2) noduprecs: 去 除 完 全 重复 的 记录 。 
3) by: by 语句 指定 按 name 升序 排列 。 
【 例 4.20】 对 例 4.19 进行 改造 , 去 除 学 生 数 据 集中 姓名 相同 的 记录 , 并 按 姓名 降序 排列 ， 
输出 到 数据 集 st_order。 


data stu; 
Input id name $ score; 
cards; 
1001 高 宏 58 
1002 马 小 名 60 
1003 刘晓华 80 
1004 董 青青 90 
1005 杨峰 78 
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1006 杨峰 98 
1003 刘晓华 80 


run; 
/*Sort 过 程 通过 noduprecs 去 除 完全 相同 的 记录 ， 结 果 输 出 到 数据 集 st order*/ 
proc sort data-stu out=st order noduprecs ; 


by descending name; 


run; 
【程序 解读 】 


by: by 语句 中 descending 指定 按 变 量 name 降序 排列 。 
【提示 】 上 面 的 Sort 过 程 把 nodumprecs 换 成 选项 nodupkey 是 去 除根 据 by 语句 指定 的 
name 变量 相同 的 记录 ， 而 不 是 去 除 完全 相同 的 记录 。 


4.3 ”经济 指数 指标 分 析 案 例 


经 济 指数 指标 是 研究 经 济 运行 情况 的 指标 ， 是 每 一 个 国家 为 维护 经 济 稳定 和 长 远 发 
展 必须 关注 的 经 济 点 。 目 前 中 国 经 济 处 于 发 展期 ， 农 产品 价格 指数 是 研究 国内 农产品 价 
格 趋势 的 分 析 数 据 。 农 产品 价格 波动 会 影响 广大 居民 的 生活 水 平 ， 需 要 国家 对 农产品 价 
格 进行 合理 的 定价 调控 ， 长 期 监控 其 价格 趋势 ， 有 助 于 稳定 居民 生活 水 平 ， 使 其 处 于 合 
理 的 价位 。 

【 例 4.21】 调查 2012 年 农产品 价格 指数 ， 分 析 农 产品 价格 在 2012 年 前 5 个 月 农产品 
总 体 价 格 趋势 。 蔬 菜 价格 调查 数据 ， 如 表 4-11 所 示 。 


表 4-11 蔬菜 价格 调查 数据 


年 份 /年 月 份 /月 蔬菜 价格 
2012 1 2.3 
2012 2 3.1 
2012 3 2.9 
2012 4 32 
2012 5 2.8 


/# 农 产品 经 济 指数 统计 ，agri_Proc 为 上 涨 率 */ 
data ecnomic; 

input y moth $ agri pro; 
cards; 

201201 2.3 

201202 3.1 

201203 2.9 

201204 3.2 

201205 2.8 

run; 

data analy; 
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set ecnomic; 
cz-agri pro-lag(agri pro); 。/* 求 出 每 条 记录 与 上 月 的 差 值 */ 


run; 


proc means data-analy; 
var cz 


run; 


程序 执行 后 的 输出 结果 如 图 4710 和 图 4-11 所 示 。 


Bad - (无 标题 ) 
SAS 
年 月 农业 产品 价格 比 。 ”比率 差 值 


201201 2 
201202 3. 
201203 2. 
201204 3 
201205 2 


SAS AE 
MEANS PROCEDURE 
HWRE: cz 比率 差 值 


4-11 means 过 程 分 析 比 率 差 什 


【程序 解读 】 
1) cz=agri_pro-lag(agri_pro);: 语句 通过 lag() 函 数 取 上 一 条 记录 变量 的 值 ， 然 后 通过 减法 
运算 求 比率 差 值 。 
2) 调用 means 过 程 ， 通 过 var 语句 对 cz〈 比 率 差 值 ) 进行 分 析 。 
【结论 】 通过 分 析 可 以 看 出 农产品 价格 在 2012 年 前 5 个 月 总 体 处 于 上 涨 趋势 ， 需 要 通过 
国家 行政 手段 给 予 调控 ， 防 止 通胀 压力 过 大 。 
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5.1 


第 5 章 


函数 基础 


每 
SAS 内 部 已 经 编译 好 的 功能 程序 的 封装 ， 
个 函数 都 体现 了 某 一 个 功能 ， 根 据 实际 需求 合理 而 有 效 地 调用 这 些 函数 可 以 实现 强大 的 编程 


贺 数 基础 与 案例 


个 编程 语言 都 有 很 多 函数 (function)，SAS 语言 也 有 很 多 函数 。SAS 中 SAS 函数 是 


能 力 ， 提 高 程序 的 可 读 性 和 执行 效率 。 


5.1.1. KAJESH ARA 
ANSE} 


是 把 数学 公式 或 其 他 子 功能 通过 函数 来 实现 。 每 一 


， 在 数学 领域 函数 是 一 种 关系 ， 这 种 关系 使 一 个 集合 里 的 每 一 个 元 素 对 应 


另 一 个 (可 能 相同 的 ) 集合 里 的 唯一 元 素 。 
1. AARE 


函数 功能 是 编程 语言 


实 显示 


实现 满足 某 种 需求 的 程序 封装 ， 相 当 于 用 户 看 到 的 电视 画面 ， 其 
画面 的 功能 都 在 电视 里 面 ， 用 户 看 不 到 ， 也 不 需要 知道 ， 只 要 知道 用 哪个 按钮 来 控制 
电视 就 可 以 ， 这 个 控制 电视 的 按钮 就 相当 于 函数 名 。 函 数 功能 的 具体 体现 需要 结合 数据 步 和 


宏 语言 的 应 用 来 实现 ， 实 际 的 业界 开发 中 经 常 在 数据 步 和 宏 语 言 中 调用 大 量 的 SAS 内 部 函 
数 ， 来 帮助 解决 业务 需求 的 问题 。 


1) 一 般 
一 般 


函数 书写 形式 。 
写 形式 就 是 按 实际 需求 把 每 一 个 参数 都 写 上 ， 书 写 形式 如 下 : 


函数 名 《参数 1932.0 


2) 
简 


式 。 


GD BR 


(2) BR 


简写 形式 。 


写 形式 是 对 同 


数 名 (OF 参数 1-2 n) 
【函数 解读 】 参数 1 与 参数 n 之 间 朋 
数 名 (OF 参数 1 参数 2… 参 数 m) 
【函数 解读 】 多 个 参数 用 空格 分 割 。 


2. 常用 函数 
SAS92 具有 很 多 已 经 编译 好 的 函数 ,在 SAS9.2 之 前 是 不 支持 自 定义 函数 的 ,到 了 SAS9.2 
版 本 ，SAS9.2 实现 了 一 个 大 跳跃 ， 用 户 可 以 自 定义 函数 。 所 谓 的 自 定 义 函 数 就 是 用 户 根据 需 


要 自己 写 程序 ， 实 现 解 决 实际 问题 的 某 种 功能 。SAS9.2 版 本 系列 目前 的 函数 分 为 25 Th. PR 
术 函 数 、 字 符 函 数 、 截 取 函 数 、 概 率 与 密度 函数 、 数 学 函数 和 日 期 、 时 间 函 


数 处 理 


功能 有 全 


数 、 样 本 统计 函数 和 分 位 数 函数 等 。 
(D 字符 处 理 函 数 
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个 函数 实现 相同 的 功能 ， 参 数 的 书写 形式 不 同 的 表示 方法 称 为 简写 形 


j «-" elk. 


实际 业界 开发 中 经 常 接触 到 字符 ， 如 字母 what、 中 文字 符 : 杨 小 红 等 都 称 为 字符 。 根 据 
需求 ， 有 时 需要 提取 字符 串 中 的 某 个 字母 或 中 文字 符 串 中 的 某 几 个 汉字 。 处 理 字符 的 函 
数 称 为 字符 处 理 函 数 ， 这 类 函数 只 能 处 理 字 符 ， 不 能 处 理 数 值 。 常 用 字符 处 理 函 数 如 表 5-1 
所 示 。 


表 5-1 常用 字符 处 理 函 数 


字符 函数 功能 说 明 
SUBSTR 字符 串 截取 与 蔡 换 
CAT 连接 字符 串 
CATS 连接 字符 串 前 去 掉 字 符 串 前 面 和 后 面 的 空格 
CATX 去 掉 前 后 的 空格 后 ， 在 连接 的 两 字符 串 中 间 插 入 分 隔 符 
SCAN 查找 到 的 特殊 字符 处 开始 分 隔 字符 串 
TRIM 过 滤 字 符 或 字符 串 尾 部 空格 
INDEX 查找 一 个 字符 串 中 第 一 次 出 现 的 某 个 字符 的 位 置 
NDEXG T E 中 想 要 找 的 字符 中 的 任意 一 个 首先 出 现 的 字符 ， 并 返回 该 字符 位 置 ， 多 个 字符 之 间 用 喜 
NB E Ar Pep rp EEG 个 “单词 ”， 并 返回 该 单词 位 置 ， 可 设 定单 词 之 间 的 分 隔 符 ， 属 于 完全 匹 
LENGTH 求 字符 串 的 长 度 
COMPRESS 从 字符 串 中 移 除 指定 的 字符 或 字符 子 串 
TRANSLATE 字符 串 蔡 换 
UPCASE 将 指定 的 字符 或 字符 串 小 写 转换 为 大 写 
LOWCASE 将 指定 的 字符 或 字符 串 大 写 转换 为 小 写 
TRANWRD 对 指定 字符 串 蔡 换 
REPEAT 对 指定 字符 串 根据 指定 次 数 重复 书写 
LEFT 左 对 齐 字符 
REVERSE 对 指定 的 字符 串 按 相反 顺序 输出 
1) SUBSTR 函数 。 
语法 格式 : SUBSTR( 变 量 名 , 位 置 <, 长 度 >)<= 蔡 换 字 符 串 > 


【语法 解读 】 

变量 : 要 处 理 的 字符 串 变量 。 

位 置 : 指明 开始 查找 字符 串 的 位 置 ， 数 值 型 。 

KE: 指明 蔡 代 字符 串 的 长 度 ， 数 值 型 。 

蔡 换 字符 串 : 指定 用 来 蔡 换 的 字符 。 

功能 :实现 字符 串 的 替换 和 截取 功能 。 

【提示 】 此 函数 对 变量 截取 与 蔡 换 ， 实 际 开发 中 对 读 取 的 外 部 文件 需要 根据 业务 需求 截 
取 原 变量 中 的 一 部 分 ， 给 新 变量 赋值 。 

【 例 5.1] SUBSTR 函数 截取 功能 应 用 ， 读 取 外 部 数据 文件 ， 存 储 在 dix 目录 中 的 
cus in.xt 文件 ， 从 身份 证 号 中 取出 每 一 个 人 的 出 生年 月 日 。 
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%let path= D:\jx\cus_in; /# 定 义 外 部 文件 路 径 头 
Volet type-.txt; 

Volet wj= "&path&type"; 

libname jx 'dijx; /*E OP 4E */ 

data jx.cust_in;“”/* 数 据 集 存储 到 指定 逻辑 库 */ 


Infile — &wj; 
input id 5. 
cus_name $8. 
sf id :$18. 身份 证 号 */ 
address :$18. 


mil 
T 


length v age $8; /* 定 义 了 一 个 业务 需求 变量 v_age， 代 表 客 户 的 出 生年 月 日 */ 
v age-substr(sf 1d,7,8); 
EAIiE SRR HRA RO IEREH H*/ 


run; 
【程序 解读 】 


程序 中 通过 LENGTH 语句 定义 了 新 变量 v_ age。 此 变量 的 值 为 substr(sfz,7,8) 函 数 从 身份 
证 号 码 第 7 位 截取 ， 取 8 位 的 值 ， 这 是 身份 证 号 的 年 月 日 的 开始 位 置 与 长 度 。 
【 例 5.2】 SUBSTR 函数 蔡 换 功能 应 用 ， 对 例 5.1 进行 改造 。 


%let path= D:jxVus in; 人 # 定 义 外 部 文件 路 径 折 
%let type-.txt; 

Volet wj= "&path&type"; 

libname jx 'd:jx; /定义 逻辑 库 关 

data jx.cust inth; ts Se fri SUE EE AH EV 


Infile &wj; 
input id $5. 
cus name $8. 
sf id :$18. /* £r S */ 
address :$18. 


/*id 前 三 位 蔡 换 为 101*/ 
substr(id,1,3)='101'; 


run; 
【程序 解读 】 


通过 SUBSTR 函数 对 id 字符 变量 截取 出 3 位 ， 对 取 到 的 3 位 用 字符 串 “101” 替 换 。 
2) CAT, CATS 和 CATX 三 个 函数 。 
CAT. CATS 和 CATX 函数 都 是 实现 字符 串 连接 的 函数 。 
CAT 与 CATS 函数 的 语法 格式 相同 。 
语法 格式 : CAT (项 1 …,< D n>) 
【语法 解读 】 
Jj 1: 可 以 取 常 值 、 变 量 或 表述 字符 上 


pum 
o 
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保留 


< 项 n>: 取 第 n 个 常 值 、 变 量 或 表述 字符 串 。 
功能 :实现 字符 串 的 连接 。 


【提示 】 CATS 函数 去 掉 连 接 串 中 间 空 格 ， 而 CAT 不 去 掉 中 间 空 格 。 


CATX 函数 语法 格式 : CAIX (分 隔 符 , Dl, … ,< 项 n>) 
【语法 解读 】 

分 隔 符 : 指定 连接 的 两 字符 串 中 间 插 入 分 隔 符 。 

功能 : 实现 字符 串 的 连接 。 


【 例 5.3】 CAT. CATS 和 CATX 函数 实现 字符 溃 连 接 的 差异 ， 对 比 学 习 其 差异 。 


data _null ; 

length v constrcat $20. v constrcats $20. v constrcatx $20.; 
v_strl='MISS'; /# 此 变量 MISS 后 有 个 空格 */ 

v_str2= 'YANG'; 

v constrcat- cat(v strl,v str2); 


v constrcats- cats(v strl,v str2); 
V_constrcatx=catx(",',Vv_str1,V_str2); 放 连接 字符 之 间 插 入 有 逗号 */ 
put v constrcat- 
v constrcats- 
V constrcatx-; 


run; 
程序 执行 后 日 志 窗 口 显示 信息 如 图 5-1 所 示 。 
BHzZ- (无 标题 ) 


puru rcat-MISS YANG wv. const reats SALE TANG v. const rcat xzMISS, YANG 


A 185)" PARTIE] € 时 间 ) 
scis 0.00 B 
CPU 时 间 0.00 $^ 


Jill 


【程序 解读 】 
(D v constrcat- cat(v strl,v str2): 实现 字符 串 v_stl 和 v_str2 两 个 


(2 v_constrcats= cats(v strl,v str2): 实现 字符 串 v_ stl 和 v_str2 两 个 字 


(S8 v constrcatx-catx(,,v strl,v str2): 实现 字符 串 v_ stl 和 v str2 两 个 


两 字符 串 之 间 插 入 逗号 分 隔 符号 。 


3) 字符 串 拆 分 函数 SCAN. 


图 5-1 CAT. CATS 和 CATX 三 个 函数 实现 字符 串 连 接 对 比 输出 


f 


字符 串 连 接 , 中间 空 格 


串 连 接 ， 去 掉 中 


字符 串 连 接 ， 并 在 


SCAN 函数 可 以 把 以 空格 或 标点 符号 隔 开 的 第 n 个 单词 分 隔 开 。SCAN 不 同 于 trim，trim 


只 是 提取 字符 。 


ZN 


语法 格式 : SCAN(v. string, n, position, length <,delimiters>) 
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【语法 解读 】 
v String: 为 字符 型 常量 、 变 量 或 表达 式 。 


N: 如 果 是 正 的 ， 从 左 到 右 扫描 寻找 ， 如 果 了 是 负 的 ， 从 右 到 左 扫描 寻找 。 


Delimiters: 指明 字符 串 的 分 隔 符 。 
功能 : 实现 对 特殊 字符 的 查找 ， 并 从 查找 到 的 特殊 字符 处 开 


始 分 隔 字 符 串 。 


这 个 函数 对 处 理 特殊 分 隔 符号 的 数据 很 有 用 ， 以 特殊 分 隔 符号 为 分 界 点 ， 取 出 需要 的 


数据 。 


【 例 5.4】 SCAN 函数 提取 证 件 号 应 用 ， 由 于 证 件 号 码 分 为 身份 证 、 军 官 证 和 学 生 证 ， 数 


据 文件 存储 证 件 号 这 列 数据 格式 为 “B 证 件 号 # 证 件 类 型 标识 ” 


WH: 实际 应 用 中 经 常用 SCAN 函数 提取 特殊 分 隔 符 号 分 隔 的 数据 ， 以 分 隔 符号 为 提取 


标志 。 


%let path= D:jxwy inf, 定义 外 部 文件 路 径 */ 

%let type=.txt; 

Volet fil- "&path&type"; 

libname jx'dNjxs /*xE XE $8 pe */ 

data jxzyinf, Ese PPE E EE 
Infile &fil ; 


input id $3. 
cust name $8. 
address :$22. Y hb E) 
zy type :$16. 


length | provice $10.;/* 取 省 份 或 直辖 市 %/ 
provice-scan(address, 1, X:?); 


In 


族 参 数 为 正 值 ，1 从 左面 扫描 到 右面 ， 把 以 X 和 # 号 分 隔 的 省 或 直辖 市 取出 来 */ 


length dqu $10.; 
dqu=scan(address,—1,'X#"); 


族 参 数 为 负 值 时 ，-1 表示 从 右边 开始 扫描 ， 把 以 # 号 分 隔 的 地 区 取出 来 */ 


run; 
人 # 打 印 输出 结果 到 输出 窗口 所 
proc print data-jx.zyinf, 


程序 执行 后 输出 结果 显示 如 图 5-2 所 示 。 


Bid - (无 标题 ) 


SAS 


address 


图 5-2 SCAN KUHARI A P 8] 
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Ud 


【程序 解读 】 


(D provice-scan(address,], X4: 参数 1 为 正 值 ， 从 左 到 右 扫 描 ， 碍 找 以 X 和 # 分 隔 的 字 


符 串 并 取出 来 ， 赋 值 给 provice 变量 。 


© dqu-scan(address,-1,47): 参数 为 负 值 时 ，-1 表示 从 右边 开始 扫描 ， 把 以 # 号 分 隔 的 地 


区 取出 来 。 
4) TRIM 函数 。 


TRM 函数 实现 对 常 值 、 变 量 或 表达 式 中 的 字符 串 过 滤 空 格 。 


语法 格式 : TRIM Cv str) 


【语法 解读 】v_str: 为 输入 的 常 值 、 变 量 或 表达 式 。 


功能 : 过 滤 掉 字符 或 字符 串 尾 部 空格 。 
【 例 5.5】 拼接 字符 串 时 过 滤 cust name 尾部 空格 与 字 address 变量 连接 。 


%let path= D:jxWg; /# 定 义 外 部 文件 路 径 六 


%let type-.txt; 
Volet fil- "&path&type' 


IB 
E 


libname jx'dNx; /x* 定 义 逻 辑 库 */ 
data jxkg; ”* 数 据 集 存储 到 指定 逻辑 库 */ 


Infile  &fil dim="| 
input 


E 


length Ikg address $50.; 


dsd missover ; 


id :$3. 

cust name :$8. 

address :$22./* 地 址 以 # 分 隔 */ 
zy type :$16. 


lkg address-trim(cust name)lladdress;/#* 过 滤 掉 cust name 尾部 空格 */ 


run; 


【程序 解读 】 


数据 步 中 语句 “1lkg address-trim(cust name)|address" rP 5L trim 函数 过 滤 cust. name 变 
量 的 空格 ， 然 后 通过 串 连接 ， 赋 值 给 变量 kg_address。 

5) INDEX, INDEXC 和 INDEXW 三 个 函数 。 

O INDEX 函数 : 返回 在 一 个 字符 串 中 ， 某 个 特定 字符 或 者 字符 串 的 位 置 。 实 际 业界 开 


发 中 一 般 和 SUBSTR 函数 


j， 先 查找 位 置 ， 然 后 截取 字符 串 。 


语法 格式 : INDEX(source,find v) 


【语法 解读 】 
Varable: 指定 的 字符 串 。 


find v: 指定 要 查找 的 字符 。 
功能 :寻找 在 一 个 字符 串 中 第 一 次 出 现 的 茶 个 字符 的 位 置 。 


© INDEXC 函数 : 查找 指定 字 


符 串 中 要 找 的 字符 中 的 任意 一 个 首先 出 现世 


该 字符 位 置 ， 多 个 字符 之 间 用 逗号 隔 开 


o 


语法 格式 : INDEXCY(source,excerpt-1—,**, excerpt-n7) 
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【语法 解读 】 
source: 可 以 为 字符 常 


量 、 变 量 或 表达 式 字符 。 


excerpt-1<,…,excerpt-n>: 指定 要 查找 的 字符 常量 、 变 量 或 表达 式 字 符 。 

功能 : 查找 指定 字符 串 中 要 找 的 字符 中 的 任意 一 个 首先 出 现 的 字符 ， 并 返回 该 字符 
位 置 。 

© INDEXW 函数 : 查找 指定 字符 串 中 要 找 的 一 个 “单词 或 字符 子囊 ”， 并 返回 该 单词 或 
字符 子 串 位 置 ， 可 设 定单 词 或 字符 子 串 之 间 的 分 隔 符 ， 属 于 完全 匹配 查找 。 

语法 格式 : INDEXW(source, excerpt<,delimiters>) 

【语法 解读 】 
source: 可 以 为 字符 和 常量、 变量 或 表达 式 字 符 。 
excerpt: 指定 要 查找 的 字符 常量 、 变 量 或 表达 式 字 符 。 


<,delimiters>: 可 选项 ， 


默认 空格 分 隔 ， 指 定 分 隔 字 符 常 量 、 变 量 或 表达 式 字 符 。 


功能 : 查找 字符 串 中 要 找 的 一 个 “单词 或 字符 子 串 ” 并 返回 该 单词 或 字符 子 串 位 置 ， 属 
于 完全 匹配 查找 。 
【 例 5.6】 INDEX. INDEXC fll INDEXW 三 个 函数 对 字符 串 实 现 查找 功能 ， 对 比 学 习 其 
区 别 。 
%let path= D:jxwy inf, /定义 外 部 文件 路 径 */ 
%let type=.txt; 
%let fil="&path&type"; 
libname jx'd:yjx" 定义 逻辑 库 */ 
data jx.zyindexcw; ”/* 数 据 集 存储 到 指定 逻辑 库 */ 
Infile &fil ; 
input id $3. 
cust name $8. 
address :$22. Hh PARA a / 
zy type :$16. 
Length diqu $10. 
diqu-substr(address,index(address, ?)--1,6); 
/*index 函数 查找 出 “#” 人 位置， 加 1 为 要 取 子 串 开 始 位 置 ， 长 度 为 6*/ 
length v indexc $10.; 
v indexc-substr(address,indexc(address,'7),1); 
f*indexc 函数 查找 出 # 号 第 一 次 出 现 的 位 置 ，substr KAHA */ 
v_indexw=indexw(address, X JE TAIE DX"); 
f*indexc 函数 查找 出 # 号 第 一 次 出 现 的 位 置 */ 
RUN; 
PET EDS HB AS RR A h a ET 
proc print data-jx.zyindexcw; 
run; 
程序 执行 后 的 输出 结果 显示 如 图 5-3 所 示 。 
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Bib - 【无 标题 ) 


address i v indexc v. indexw 


图 5-3 INDEX. INDEXC fll INDEXW 三 个 函数 实现 查找 字符 


【程序 解读 】 


(D diqu-substr(address,index(address,4")-1,6): index 函数 查找 出 “# 位 置 ， 加 1 为 要 取 


子 串 的 开始 位 置 ， 长 度 为 6。 


(2 v indexc-substr(address,indexc(address,4),1): indexe 函数 查找 出 # 号 第 一 次 出 现 的 位 


A, substr 函数 取出 # 号 。 


(3) v indexw=indexw(address,X 北京 市 # 海 淀 区 '): indexe 函数 查找 出 "X 北京 市 礁 每 淀 区 " 


字符 串 ， 存 在 返回 1， 不 存在 返回 0。 
6) LENGTH 函数 。 
语法 格式 : LENGTH (varble) 
【语法 解读 】 Varble: 指定 的 变量 。 
功能 : 返回 字符 串 变 量 的 长 度 。 


【提示 】 实际 业界 开发 中 如 果 需 要 计算 变量 长 度 ， 可 以 考虑 用 LENGTH 函数 。 对 于 需要 
从 变量 右边 截取 n 个 字符 ， 可 以 通过 LENGTH 函数 计算 出 总 长 度 ， 然 后 通过 LENGTH 


(varble)-n+1 计算 出 开始 位 置 。 
【 例 5.7】 LENGTH 函数 计算 字符 串 长 度 ， 与 SUBSTR 函数 联合 应 用 。 


%let path= D:jxWg; 人 # 定 义 外 部 文件 路 径 六 

%let type-.txt; 

Volet fil- "&path&type"; 

libname jx 'dix; /*xE OE REE*/ 

data jx.lid;，/* 数 据 集 存储 到 指定 逻辑 库 */ 
Infile  &fildlm-' dsd missover ; 


input id :$3. 
cust name :$8. 
address :$22./* 地 址 以 # 分 隔 */ 
zy type :$16. 


Length v id $2.; 
v id-substr(id,length(1d)-1,2); 


/*LENGTH 函数 先 求 出 字符 串 总 长 度 ， 总 长 度 减 1 为 区 号 开始 位 置 ， 然 后 通过 外 部 SUBSTR FÉ 


数 ， 从 此 位 置 开始 取 区 号 ， 取 两 位 */ 


run; 
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【程序 解读 】 

v_id=substr(id,length(id)-1,2): length 函数 先 求 出 变量 id 字符 串 总 长 度 ， 总 长 度 减 1 为 
号 开始 位 置 ， 然 后 通过 外 部 SUBSTR 函数 ， 从 此 位 置 开始 取 区 号 ， 取 两 位 */ 

7) COMPRESS 函数 。 

COMPRESS 函数 从 数据 源 移 除 指定 的 字符 。 这 个 函数 可 以 去 掉 特 殊 字符 等 不 需要 的 字 
符 ， 相 当 于 一 个 过 滤 。 

语法 格式 : COMPRESS(<source><, chars><, modifiers>) 

【语法 解读 】 

source: 数据 源 ， 指 定 一 个 字符 串 常 量 、 变 量 或 表达 式 。 

chars: 指定 要 移 除 的 一 个 字符 或 字符 子 串 常量 、 变 量 或 表达 式 。 默 认 情 况 下 ， 在 此 列表 
中 指定 的 内 容 被 删除 。 如 果 在 第 三 个 参数 modifiers 指 定 修饰 符 ， 那 么 只 有 在 此 名 单 中 的 字符 
保存 在 结果 中 ， 用 此 修改 。 

modifiers: 指定 修改 查找 到 的 内 容 方式 ， 空 格 被 忽略 。 作 为 修改 参数 ， 可 以 取 的 参数 项 
值 如 下 。 


x1 


a 或 A: 增加 字母 字符 的 字符 列表 。 

c 或 C: 增加 了 控制 字符 的 字符 列表 。 

d 或 D: 增加 了 数字 的 字符 列表 。 

ERAF: 添加 下 夯 线 字符 和 英文 字母 的 字符 列表 。 
g 或 G: 增加 了 图 形 字符 的 字符 列表 。 


ha&H: 增加 了 一 个 水 平 制 表 符 的 字符 列表 。 

KÈK: 保留 的 字符 。 

IRL: 增加 了 小 写字 母 的 字符 列表 。 

n 或 N: 增加 了 数字 、 下 画 线 、 英 文字 母 和 字符 列表 。 

p 或 P: 增加 了 标点 符号 的 字符 列表 。 

s 或 $: 字符 列表 中 添加 空格 字符 〈 空 白 、 水 平 制 表 符 、 垂 直 制 表 符 、 回 车 、 换 行 、 换 页 )。 

u 或 U: 增加 了 大 写字 母 的 字符 列表 。 

w 或 W: 增加 了 可 打印 字符 的 字符 列表 。 

x 或 X: 十 六 进 制 字符 的 字符 列表 。 

【提示 】 如 果 修 改 的 是 一 个 常数 ， 用 引号 括 起 来 ， 在 单 引号 中 指定 多 个 常数 ， 修 饰 符 也 
可 以 表示 为 一 个 变量 或 表达 式 。 

功能 :对 字符 串 移 除 。 

【 例 5.8】 COMPRESS 函数 对 address 处 理 ， 移 除 指定 的 变量 和 保留 指定 的 变量 的 应 用 。 


%let path= D:jxwy inf, 入 定义 外 部 文件 路 径 并 
%let type-.txt; 
Volet fil- "&path&type"; 
libname jx'd:yjx" /*4E XP 4REE*/ 
data jx.zycompress (keep-address v addcompressl v addcompress2) ; /* 数 据 集 存储 到 指定 逻辑 库 */ 
Infile &fil ; 
input id $3. 
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cust name $8. 
address :$22. Mh EA) t 
zy type :$16. 

length v addcompress] $30.; 

v. addcompress] —compress(address, X#'); /* 移 除 address 变量 中 的 x 和 # 字 符 */ 
length v addcompress2 $10.; 
v. addcompress2 —compress(address, X/,k'); /*k 参数 表示 保留 X 和 # 字 符 ， 其 他 字符 从 address Æ 
量 中 移 除 */ 
RUN; 
PET ED d £s ERST HA i o */ 


proc print data—jx.zycompress ; 


run; 
程序 执行 后 输出 结果 如 图 5-4 所 示 。 
输出 - (无 标题 ) 
address v. addcompressi v addcompress? 
xim rh eue 北京 市 海 深 区 
* 山 东 省 捕 岛 市 山东 省 青岛 市 
KRET MaE 天 津 市 滨海 区 
外 
图 5-4 COMPRESS 函数 处 理 变量 应 用 
【程序 解读 】 


(D v addcompressl —compress(address, X4"): 通过 compress 函数 移 除 address 变量 中 包含 
的 X 和 # 字 符 。 

(2) v addcompress2 —compress(address,X£'/'k"): 通过 compress 函数 ， 根 据 k 参数 ， 表 示 
YF SAS 系统 保留 变量 address 中 含有 的 X 和 # 字 符 ， 其 他 字符 从 address 变量 中 移 除 。 

【提示 】 通过 对 比 可 以 发 现 ，compress 函 数 的 第 三 个 选项 modifiers 的 作用 。 读 者 可 以 对 
此 案例 进行 改造 ， 实 验 其 他 参数 选项 ， 在 对 比 中 学 习 其 差异 ， 才 能 提高 对 SAS 的 认识 。 

8) TRANSLATE 函数 。 

TRANSLATE 函数 实现 蔡 换 特定 的 字符 功能 ， 实 际 业 界 开发 中 经 常用 此 函数 处 理 缺 失 值 
的 变量 。 由 于 包含 缺失 值 的 变量 影响 数据 装载 、 统 计 分 析 和 数据 挖掘 ， 往 往 缺 失 值 都 用 一 个 
TERM. 
语法 格式 : TRANSLATE(source,to-1,from-1<,…, to-n,from-n>) 
【语法 解读 】 
source: 数据 源 ， 指 定 一 个 常量 、 变 量 或 表达 式 。 
to-1: 指明 要 用 的 子 串 蔡 换 的 字符 串 。 
from-1: 要 从 数据 源 蔡 换 的 字符 串 。 
【提示 】 多 个 蔡 换 字符 用 逗号 分 隔 。 
【 例 5.9】 TRANSLATE 函 数 对 address 变 量 字符 替换 处 理 ， 把 “# ERIS "|". 
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%let path= D:jxwy inf, 入 定义 外 部 文件 路 径 并 

Volet type-.txt; 

Volet fil- "&path&type"; 

libname jx'dNx; /x* 定 义 逻 辑 库 */ 

data jx.zytranslate (keep=address v addtranslate) ; /* 数 据 集 存储 到 指定 钦 辑 库 */ 
Infile &fil ; 


input id $3. 
cust name $8. 
address :$22. Hh PARA) as / 
zy type :$16. 


length v addtranslate $30.; 
v. addtranslate —translate(address, |, ^); /*translate 函数 把 变量 address 中 的 # 字 符 用 | 蔡 换 */ 
RUN; 
上 # 打 印 输出 结果 到 输出 窗口 %/ 
proc print data-jx.zytranslate; 


run; 
程序 执行 后 输出 结果 如 图 5-5 所 示 。 
iub - (无 标题 ) 
SAS 
address v addtranslate 
Xibmrhieusbt HbR [sve 
Xem WRS mb 
NXd$rhqEMSDE KRET | 滨海 区 
Jil | 
图 5-5 TRANSLATE 函数 应 用 
【程序 解读 】 


v_addtranslate —translate(address,|, ^): translate 函数 把 变量 address 中 的 # 字 符 用 | 蔡 换 。 

9) UPCASE 函数 和 LOWCASE 函数 。 

UPCASE 函数 和 LOWCASE 函数 的 功能 相似 ， 都 是 对 字符 或 字符 串 大 小 写 的 转换 。 只 是 
UPCASE 函数 将 指定 的 字符 或 字符 串 小 写 转换 为 大 写字 符 。LOWCASE 函数 将 指定 的 字符 或 
字符 串 大 写 转换 为 小 写字 符 。 

语法 格式 : UPCASE(argument) 

【语法 解读 】 

Argument: 要 转换 的 字符 串 常 量 、 变 量 或 表达 式 。 

功能 :把 字符 或 字符 串 中 的 小 写字 母 转换 为 大 写 。 

语法 格式 : LOWCASE(argument) 

【 例 5.10】 UPCASE 函数 把 level 变量 对 应 的 字符 转换 为 大 写 。 


data car level(keep-level v level card. desc); 
input id:5. level $1. type $5; 
length card desc $20. v level $1. 
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v_level=upcase(level);/*UPCASE 函数 把 变量 level 对 应 的 字符 转化 为 大 写 */ 
select (upcase(level)); /*select 语句 应 用 函数 */ 
/*upcase 函数 把 变量 level 对 应 的 字符 串 转 化 为 大 写 ， 然 后 与 when 语句 中 的 条 件 进行 比较 */ 
When ('A') card desc-v level|[trim(type); 
When ('B') card desc-v levell|[trim(type); 
When (C) card desc-v level|[trim(type); 
otherwise card desc-v levell[trim(type); /* 不 符合 以 上 条 件 的 执行 otherwise 语句 */ 
end; 
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cards; 
10001 a 金 卡 
10002 b 标 白 卡 
10003c 普 卡 


run; 
PCECEP E, TIED d EA CH TET / 


Proc print data-car level noobs; 


程序 执行 后 输出 结果 如 图 5-6 所 示 。 
【程序 解读 】 


(D v level-upcase(level): upcase 函数 把 变量 level 对 应 的 字符 转化 为 大 写 。 

(2) select (upcase(level)): select 语句 应 用 UPCASE 函数 把 level 对 应 的 字符 转化 为 大 写 ， 
然后 与 when 语句 的 字符 进行 比较 。 

【 例 5.11】 对 例 5.10 进行 改造 ，LOWCASE 函数 将 level 变量 字符 转换 为 小 写 。 


data car levelxx(keep-level v level card desc); 

input id :5. level $1. type $5; 

length card desc $20. v level $1. 

v. level-lowcase(level);/*LOWCASE 函数 把 变量 level 对 应 的 字符 串 转 化 为 小 写 */ 

select  (lowcase(level)); 

/*LOWCASE 函数 把 变量 level 对 应 的 字符 串 转 化 为 小 号， 然后 与 when 语句 中 的 条 件 进行 比较 */ 
When (a) card desc-v levellltrim(type); 
When (b) card desc-v level|[trim(type); 
When (c) card desc-v level|[trim(type); 


otherwise card desc-v levell[trim(type); /* 不 符合 以 上 条 件 的 执行 otherwise 语句 */ 
end; 
cards; 


10001 A 金 卡 
10002 B 标 白 卡 
10003 C 普 卡 


run; 
必 查 看 数据 集 ， 打 印 输出 到 输出 窗口 对 


proc print data-car levelxx noobs; 


run; 
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程序 执行 后 输出 结果 如 图 5-7 所 示 。 


输出 - “无 标题 ) 


desc v. level 


图 5-6 UPCASE 函数 应 用 5-7 LOWCASE 函数 应 用 
【程序 解读 】 


CD v_level=lowcase(level): LOWCASE 函数 把 变量 level 对 应 的 字符 转化 为 小 写 。 

(2) select (lowcase (level)): select 语句 应 用 LOWCASE 函数 把 level 对 应 的 字符 转化 为 
小 写 ， 然 后 与 when 语句 字符 进行 比较 。 

【提示 】 对 比例 5.11 和 例 5.10 可 以 看 到 ，UPCASE 函数 和 LOWCASE 函数 的 功能 相似 。 

100 TRANWRD 函数 。 

语法 格式 : TRANWRD(source,target,replacement) 

【语法 解读 】 

source: 要 处 理 的 字符 串 。 

target: 指明 要 蔡 换 的 子 串 。 

replacement: 蔡 换 的 字符 或 子 串 。 

功能 : 实现 把 字符 串 source 中 的 target 选 项 字符 串 替 换 为 replacement 选 项 指定 的 字符 或 字 
符 串 。 

实际 开发 中 经 常用 TRANWRD 函数 转换 特殊 分 隔 符号 的 外 部 文件 , 因为 这 类 分 隔 符号 标 
识 分 隔 不 唯一 , SAS 系统 无 法 区 分 , 因此 要 把 此 分 隔 符号 转换 为 Windows 系统 唯一 分 隔 标识 。 
【 例 5.12】 对 tsfg.txt 文件 以 |@I 分 隔 的 数据 文件 读 取 时 需要 先 转换 分 了 喇 ， 通 过 tranwrd f£ 
换 分 隔 。 


%let path= D:jxWsfg; /*xE XL OCT ER TE */ 
Volet type-.txt; 
Volet fil- "&path&type"; 
libname jx'dWjxs /*xE XE $8 pe */ 
data jx.tsfg trawrd; /* thE f 4r fi BUR EXE AR PE 
infile &fil dlm-'08'x dsd missover ; 
input  @;/# 行 控制 符 ， 处 理 时 不 换行 对 
P* 这 样 下 面 的 转换 函数 tranwrd(_infile_,|@|,08x) 把 |@| 特 殊 字 符 分 隔 转 换 为 '08'x 分 隔 的 符号 ， 
才能 对 外 部 文件 处 理 */ 
_infile =tranwrd(_ INFILE ,|@| ,08x); 


input id :$5. 
cust name :$8. 
address :$30. 
type :$10. 
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run; 


【程序 解读 】 

数据 步 中 的 语句 “_infile -tranwrd( INFILE ,|, 08x); " 38: TRANWRD 函数 把 分 隔 符 
号 |@| 转 化 为 08"x 分 隔 的 文件 。 

11) REPEAT 函数 。 
REPEAT 函 数 实 现 对 指定 的 字符 类 型 〈 如 一 个 常量 、 变 量 或 表达 式 ) 
语法 格式 : REPEAT(argument,n) 

【语法 解读 】 
argument: 为 输入 字符 或 字符 串 ， 可 以 取 一 个 常量 、 变 量 或 表达 式 。 
n: 为 自然 数 ， 取 重复 次 数 。 

功能 : 把 argument 字符 或 字符 串 重 复 n 次 。 
【 例 5.13】 对 数据 文件 cftxt 中 的 缺失 值 用 5 个 8 SH. 


E 复 出 现 的 次 数 。 


mh 


%let path- D:Yjx\cf。/* 定 义 外 部 文件 路 径 */ 
Volet type-.txt; 
Volet fil- "&path&type"; 
libname jx'd:x; /*XE OE 48 JE*/ 
data jx.cf repeat(keep-idbh id); /*Z&ds fe def SS E LEE 
infile &fil dlm-'08'x dsd missover ; 
input  @;/# 行 控制 符 ， 处 理 时 不 换行 %/ 
P* 这 样 下 面 的 转换 函数 tranwrd(_infile_,|@|,'08x) 把 |@|' 特 殊 字符 分 隔 转 换 为 '08'x 分 隔 的 符号 ， 
才能 对 外 部 文件 处 理 */ 
_infile =tranwrd(_ INFILE ,|@| ,08x); 


input idbh :$5. 
cust name :$8. 
address :$30. 
type :$10. 


length id $5.; 
id= translate(idbh,repeat('8',5),' '); 
/* A RŽ REPEAT 把 8 重复 5 次 输出 ， 外 部 TRANSLATE 函数 处 理 缺 失 值 ， 将 数据 文件 中 学 


号 idbh 列 生成 数据 集 时 的 缺失 值 蔡 换 为 88888， 赋 值 给 id 变量 */ 


NS i id 
SAFT EREA HC n idii 
Proc print data=jx.cf repeat; Im 
run; 
程序 执行 后 输出 结果 如 图 5-8 所 示 。 
【程序 解读 】 图 5-8 REPEAT 函数 应 用 


id= translate(idbh,repeat(8,5), ): 内 扔 函数 REPEAT 把 8 重复 5 次 输出 ， 外 部 TRANSLATE 
函数 处 理 缺 失 值 ， 将 数据 文件 中 学 号 idbh 列 生成 数据 集 时 的 缺失 值 蔡 换 为 88888， 赋 值 给 id 


779 


变量 。 
12) LEFT 函数 。 
LEFT 函数 在 字符 串 连接 中 经 常用 到 ， 实 现 把 左边 空格 滤 掉 。 
语法 格式 : LEFT(argument) 
【语法 解读 】 argument: 为 输入 字符 、 字 符 串 或 表达 式 。 
功能 : 把 argument 字 符 或 字符 串 左 对 齐 ， 使 左边 空格 去 掉 。 
【 例 5.14】 LEFT 函数 在 字符 串 连接 中 的 应 用 。 


*left 函数 把 字符 串 左 对 齐 ; 
data zf left(keep-v leftno left); 
v. s]-'where are you from?'; 
v S27 [am from china; /# 语 句 左 边 有 空格 对 
v_left=v_sl||left(v_s2); /*LEFT 函数 把 字符 串 左 对 齐 */ 
no left-v sl|v s2; /*i 8 LEFT 函数 字符 串 连 接 */ 


run; 
点 查 看 数据 集 ， 打 印 输出 到 输出 窗口 */ 


proc print noobs; 


run; 


程序 执行 后 输出 结果 如 图 5-9 所 示 。 


输出 - (无 标题 ) 


v. left no left 


where are you from?I am from china. where are you from? I am from china. ~ 


< | | 


5-9 LEFT 函数 应 用 


【程序 解读 】 
对 比 v. left 变量 和 no left 变量， 可 以 看 出 v_left=v_slllleft(v_ s2) 通 过 left 函数 过 滤 掉 了 左 
边 的 空格 。 


13) REVERSE 函数 。 

REVERSE 函数 实现 对 指定 字符 串 按 相反 的 顺序 输出 。 

语法 : REVERSE(argument) 

【语法 解读 】 argument: 为 输入 字符 或 字符 串 或 表达 式 。 

功能 :把 argument 字 符 、 字 符 串 或 表达 式 按 相反 的 顺序 输出 。 

【 例 5.15】 对 例 5.14 进行 改造 ，REVERSE 函数 转换 输出 顺序 。 
*reverse 函数 把 字符 串 按 相反 顺序 转换 字符 串 ; 


data zf reverse; 


v_s=where are you from?'; 
v. reverse-reverse(v. s); TA AH Js JW FP Pe SEAE FRI 
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run; 


【程序 解读 】 

v reverse-reverse(v s): dE v s 变量 中 的 字符 串 按 相 反 的 顺序 转换 字符 串 。 

(2) 数学 运算 函数 

数学 运算 是 现实 中 经 常 遇 到 的 ，SAS 系统 为 满足 实际 需求 ， 内 部 编译 好 了 很 多 实现 数学 
运算 的 函数 ， 每 一 个 数学 函数 实现 一 定 的 数学 计算 。 常 用 数学 运算 函数 如 表 5-2 所 示 。 


表 5-2 ”数学 运算 函数 


SUM 求 出 输入 数值 运算 的 和 
MAX 求 出 一 组 数据 中 的 最 大 值 
MIN 求 出 一 组 数据 中 的 最 小 值 
ABS 取 数 值 的 绝对 值 
ROUND 对 指定 数值 按 指 定 的 精度 四 舍 五 入 
SQRT 求 数 值 的 平方 根 
CEIL 对 数值 取 最 小 整数 
FLOOR 对 输入 数值 取 最 大 整数 
INT 对 输入 数值 取 整 数 部 分 ， 把 小 数 部 分 去 掉 
LOG 对 输入 数值 求 自然 对 数 
LOG2 求 以 2 为 底 的 输入 值 的 对 数 
LOGIO 求 以 10 为 底 的 输入 值 的 对 数 
EXP 求 以 常 值 e 为 指数 的 X FRE 
1) SUM 函数 。 
SUM 函数 是 求 给 予 的 非 缺 失 值 数 据 的 和 运算 函数 。 


语法 格式 : SUM(argumenbargument，…) 
【语法 解读 】 argument: 为 指定 的 数值 常量 、 变 量 或 表达 式 。 
功能 : 求 数值 变量 的 和 ， 实 现 加 法 运算 。 
【提示 】 如 果 SUM 函 数 指定 一 个 参数 选项 ， 其 函数 返回 值 为 argument 选项 的 值 ， 如 果 指 
定 两 个 或 更 多 选项 参数 ， 其 中 有 一 个 标准 的 缺失 值 点 〈.)， 其 函数 返回 不 是 缺失 值 的 和 。 

【 例 5.16】 求 一 个 班级 每 名 学 生 3 门 课程 的 总 成 绩 。 

data stu; 

input id name $ math Chinese English; 

total-sum(math,chinese,english); 。/* 求 每 名 学 生 3 门 课程 的 总 成 绩 */ 

cards; 

101 高 宏 78 80 90 

102 马 小 名 89 87 78 

103 董 晓 晴 65 98 76 
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【程序 解读 】 

total-sum(math,chinese,english): sum 函数 求 出 math, Chinese 和 English 三 门 课程 的 总 成 
绩 ， 并 赋值 给 变量 total。 

2) MAX 函数 和 MIN 函数 。 

MAX 函数 求 出 一 组 数据 的 最 大 值 ，MIN 函数 求 出 一 组 数据 的 最 小 值 。 

语法 格式 : MAX(argument-1,argument-2<,*…,argument-n>) 

【语法 解读 】 argument-l,argument-2<,…,argument-n>: 为 指定 的 多 个 数值 类 型 参数 选项 ， 
至 少 两 个 参数 选项 。 

功能 : 求 一 组 数值 类 型 的 最 大 值 。 

【 例 5.17】 求 出 用 户 4 个 月 刷卡 交易 的 最 高 和 最 低 交 易 额度 。 


%let path= D:jxWrans; /* E XJ SOC TERR TE */ 
Volet type-.txt; 
Volet fil- "&path&type"; 
libname jx'dNjxs /* 3E XE $8 pe */ 
data jx.trans(keep-name monthl month2 month3 month4 tran max tran mim; 人 # 数 据 集 存 储 到 指定 
逻辑 库 */ 


infile &fil; 
input id :$9. 
name :$8. 
month1 :8. 
month2 :8. 
month3 :8. 
month4 :8. 


length tran max 8.; 
tran max-max(month1,month2,month3,month4); 
[MAX 函数 求 出 客户 4 个 月 中 刷卡 交易 的 最 高 额度 对 
length tran min 8; 
tran min-min(month1 ,month2,month3,month4); 
P*MIN 函数 求 出 客户 4 个 月 中 刷卡 交易 的 最 低 额 度 */ 
run; 
人 # 查 看 输出 结果 ， 打 印 输出 到 输出 窗口 %% 


Proc print data-jx.trans; 


程序 执行 后 输出 结果 如 图 5-10 所 示 。 


Ba 输出 - 【无 标题 ) 


SAS 
month1 month2 month3 monthá iran max tran min 
1000 800 2000 4000 


4000 
3000 4000 500 3800 4000 
4500 3200 3600 300 4500 


Ii 


图 5-10 MAX 函数 与 MIN 函数 应 用 
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【程序 解读 】 
(D tran max-max(monthl,month2,month3,month4): 通过 MAX 函数 求 出 客户 4 个 月 中 刷 
卡 交 易 的 最 高 额度 。 
(2 tran min-min(monthl,month2,month3,month4): 通过 MIN 函数 求 出 客户 四 个 月 中 刷卡 
交易 的 最 低 额 度 。 
3) ABS 函数 。 
ABS《〈 绝 对 值 ) 函数 主要 用 来 对 数值 类 型 数据 进行 处 理 ， 对 于 一 些 实际 意义 不 能 为 负 的 
数据 ， 通 过 ABS 函数 进行 转换 。 
语法 格式 : ABS (argument) 
【语法 解读 】 argument: 为 输入 的 数值 参数 。 
功能 : 求 变量 argument 的 绝对 值 。 
【提示 】 实际 开发 中 人 们 总 会 犯错 误 ， 实 际 价格 、 交 易 额 、 成 绩 和 年 龄 等 不 能 为 负 值 ， 
在 处 理 这 类 数据 时 通常 应 用 ABS 函数 取 绝 对 值 ， 防 止 价格 和 年 龄 为 负 值 的 出 现 。 
【 例 5.18】 刷卡 交易 数据 处 理 ， 数 据 文件 d:\jx\tran_card.txt。 
%let path- D:jxWrans card; /# 定 义 外 部 文件 路 径 头 
%let type-.txt; 
%let fil- "&path&type"; 
libname jx'dXjx5 /*4E XP 4REE*/ 
data jx.rans abs; ”/* 数 据 集 存储 到 指定 逻辑 库 */ 
infile &fil dlm-' dsd missover ; 


input bh :$3. 
cust name :$8. 
tran ed 1 :8. 


trans address :$30. 
length tran ed 8.; 
tran ed- abs(tran ed 1); 
/* ABS 函数 取 交 易 绝 对 值 ， 防 止 数 值 为 负 */ 
drop ”tran_ed_1;/* 过 渡 变 量 tran ed 1 去 掉 */ 
run; 
【程序 解读 】 
tran ed= abs(tran ed 1): ABS 函数 对 源 数据 文件 变量 ran ed 1 取 交 易 绝 对 值 ， 防 止 数值 
4) ROUND 函数 。 
ROUND 函数 实现 按 指定 的 精度 取 数 值 ， 对 于 需要 指定 精度 处 理 的 数据 而 言 此 函数 可 以 
满足 需求 。 实 际 应 用 中 小 数 点 后 面 的 数据 有 时 没有 实际 意义 ， 可 以 省 略 掉 ， 也 就 是 四 舍 五 入 。 
语法 格式 : ROUND (argument <,rounding-unit>) 
【语法 解读 】 
argument: 为 输入 的 数值 参数 。 
rounding-unit: 为 取 的 精度 ， 不 写 此 参数 默认 为 1。 
功能 : R argument 按 rounding-unit 指 定 的 精度 四 舍 五 入 。 
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【 例 5.19】 国家 利率 变动 与 存款 贷款 关系 ， 换 算 利 率 按 精 度 0.001 。 


%let path= D:jxwate; /*XE X FW SC TERR TE*/ 
%let type-.txt; 
Volet fil- "&path&type"; 
libname jx'dNx; /* 定 义 逻 辑 库 */ 
data jx.rate round; ”数据 集 存储 到 指定 逻辑 库 */ 
infile &fil dlm-'| dsd missover ; 
input bh :$3. 
cust name :$8. 


cust money 1 :8. 
rate :5.4 
length custcq money 3.; 
custcq money= abs(cust money 1); 
PERPE 
length cust ydk 7.2; 
cust ydk-custcq money*(1--round(rate,0.001)); 
/*ROUND 函数 取 利率 精度 ， 客 户 应 得 款 为 本 金 加 利率 所 得 */ 
drop tran ed 1; 


run; 


【程序 解读 】 
cust ydk=custcq money*(1-round(rate,0.001)) ROUND 函数 取 利 率 精 度 ， 客 户 应 得 款 为 
本 金 加 利率 所 得 。 
5) SQRT 函数 、CEIL 函数 、FLOOR 函数 和 INT 函数 。 
这 几 个 函数 的 基本 功能 相似 ，SQRT 函数 求 数值 平方 根 ，CEIL 函数 对 数值 取 最 小 整数 ， 
FLOOR 函数 对 输入 数值 取 最 大 整数 ， INT 函数 对 输入 数值 取 整 数 部 分 。 
语法 格式 : SORT(argument) 
【语法 解读 】 
argument: 为 输入 的 数值 参数 。 
功能 : 求 数值 平方 根 。 
语法 格式 : CEIL (argument) 
【语法 解读 】 
argument: 为 输入 的 数值 参数 。 
功能 : REE argument 数 值 大 的 最 小 整数 ， 若 x 本 身 为 整数 ， 函 数值 为 argument。 
语法 格式 : FLOOR (argument) 
【语法 解读 】 
argument: 为 输入 的 数值 参数 。 
功能 : 求 比 argument 数 值 小 的 最 大 整数 ， 若 argument 本 身 为 整数 ， 函 数值 就 为 argument。 
语法 格式 : INT (argument) 
【语法 解读 】 
argument: 为 输入 的 数值 参数 。 
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功能 : 对 输入 数值 取 整 数 部 分 ， 把 小 数 部 分 去 掉 。 

【提示 】 FLOOR 函数 和 CEIL 函数 功能 相似 ， FLOOR. 函数 求 比 输入 值 小 的 最 大 整数 ， 
CEIL 函数 求 比 输入 值 大 的 最 小 整数 。 对 比 其 差异 性 来 理解 和 运用 这 两 个 函数 。 

【 例 5.20】 对 变量 x 通过 SQRT 函数 、CEIL 函数 、FLOOR 函数 和 INT 函数 分 别 求 平方 
IR REE x 数值 大 的 最 小 整数 、 求 比 输入 值 x 小 的 最 大 整数 和 求 x 整数 。 


data rate; 
input x 6.1; 
x sqrt-sqrt(x);/ X] x 求 平方 根 */ 
x ceil-ceil(x); /*X} x REE x 数值 大 的 最 小 整数 */ 
x floor-floor(x); /Xx 对 x 求 比 输入 值 x 小 的 最 大 整数 */ 
x int-int(x);/*X] x 求 整数 */ 
cards; 
4.0 
8.1 
8.2 
9.5 


run; 
FIRZA An, AAR 


proc print data-rate; 


程序 执行 后 输出 结果 如 图 5-11 所 示 。 
Ei 葡 出 - (无 标题 ) 


20124 
x sqrt x floor x int 


2.00000 4 4 
2.84605 8 8 
2.86356 9 8 8 
3.08221 3 3 


图 5-11 对 变量 x 进行 函数 处 理 


【程序 解读 】 
(D x_sqrt=sqrt(x): 对 x 求 平方 根 。 
© x ceil-ceil(x): 对 x 求 比 x 数值 大 的 最 小 整数 。 
© x_floor=floor(x): 对 x 求 比 输入 值 x 小 的 最 大 整数 。 
@ x_int=int(x): 对 x 求 整数 。 
6) LOG 函数 、LOG2 函数 和 LOG10 函数 。 
LOG 函数 、LOG2 函数 和 LOGI10 函数 这 3 个 函数 属于 一 类 对 数 函数 ， 只 是 底数 不 同 。 
LOG(x): 以 e 为 底 的 自然 对 数 。 
LOG2(x): 以 2 为 底 的 x 的 对 数 。 
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LOG10(x): 以 10 为 底 的 x 的 对 数 。 
【 例 5.21】 对 变量 x 取 对 数 。 


data sy; 

Input id x times; 
x log-log(x);/ 48 x 转化 为 以 e 为 底 的 对 数 */ 
x_log2=l0g2(x);/*}E x 转化 为 以 2 为 底 的 对 数 */ 
x_log10=log10(x);/*}E x 转化 为 以 10 为 底 的 对 数 */ 

cards; 

10121 

10242 


run; 
PETERS RAA AO, BAAR 
proc print data=sy; 


run; 


程序 执行 后 的 输出 结果 如 图 5-12 所 示 。 


Hi 输出 - 【无 标题 ) 


SAS 
limes x log x log 


1 0.63315 0.30103 
1.388623 0.60208 


图 5-12 ”对 变量 x 取 对 数 


【程序 解读 】 

© x log-log(x): 把 x 转化 为 以 e 为 底 的 对 数 。 

© x log2-log2(x): 把 x 转 化 为 以 2 为 底 的 对 数 。 

(3) x logl0-loglO(x): 把 x 转化 为 以 10 为 底 的 对 数 。 

7) EXP 函数 。 

对 于 实际 开发 中 以 e 为 指数 的 寡 级 可 以 考虑 用 EXP 函数 转化 数据 ， 便 于 过 程 步调 用 统计 
分 析 过 程 对 数据 分 析 。 

语法 格式 : EXP(argument) 

【语法 解读 】 argument: 为 输入 的 数值 参数 。 

功能 : 求 以 常 值 e 为 指数 的 argument 次 TTL o 

[5/5.221 RA e 为 底 的 x Ko 


data sy exp; 
input x; 

x exp-exp(x);/* El e 为 底 的 x 次 寡头 
cards; 
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run; 


【程序 解读 】 
x exp-exp(x): 求 以 e 为 底 的 x OR. 
(3) 日 期 和 时 间 函 数 
SAS 系统 内 部 编译 好 了 日 期 和 时 间 处 理 函 数 ， 这 些 函 数 主 要 用 来 处 理 实际 开发 中 的 日 期 
和 时 间 值 。 常 用 日 期 和 时 间 函 数 如 表 5-3 所 示 。 


| 


表 5-3 ”常用 日 期 和 时 间 函 数 


期 和 时 间 函 数 功能 说 明 
YEAR 返回 日 期 的 年 份 
MONTH 返回 日 期 的 月 份 
DAY 返回 日 期 的 
MDY 从 年 月 日 中 返回 日 期 值 
WEEKDAY 从 日 期 中 求 出 星期 几 
QTR 根据 日 期 求 出 季度 
HMS 根据 输入 时 间 值 返回 一 个 SAS 时 间 
DHMS 根据 输入 日 期 时 间 值 返回 一 个 SAS 日 期 时 间 
DATEPART 根据 输入 日 期 时 间 值 返回 一 个 SAS 日 期 部 分 
INTCK 返回 两 个 日 期 按 指 定 间隔 求 出 的 间隔 值 
TODAY 返回 当前 日 期 值 
DATETIME 返回 当前 SAS 日 期 时 间 值 
为 便于 读者 对 每 一 个 函数 的 应 用 理解 ， 下 面 分 别 对 每 一 个 函数 进行 讲解 最 后 再 通过 一 个 


综合 应 用 对 这 些 函 数 进行 联合 应 用 的 讲解 。 
1) YEAR 函数 、MONTH 函数 和 DAY 函数 。 
YEAR 函数 、MONTH 函数 和 DAY 函数 这 3 个 函数 是 对 日 期 处 理 经 常用 到 的 函数 ， 分 别 
表示 取出 日 期 的 年 份 、 月 份 和 日 。 
YEAR 函 数 语法 格式 : YEAR(date) 
【语法 解读 】 date: 为 输入 的 日 期 值 。 
功能 : 返回 date 日 期 的 年 份 。 
MONTH AOAI: MONTH(date) 
【语法 解读 】 date: 为 输入 的 日 期 值 。 
功能 : 返回 date 日 期 的 月 份 。 
DAY 函 数 语 法 格式 : DAY(date) 
【语法 解读 】 dates 为 输入 的 日 期 值 。 
功能 : 返回 date 日 期 的 日 。 
【 例 5.23】 YEAR Kžt MONTH 函数 和 DAY 函数 3 个 函数 联合 应 用 拼接 文件 日 期 的 实 
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际 开发 应 用 。 
程序 如 下 : 


庶 业 务 数据 日 期 处 理应 用 */ 
%let v curr dt=%sysfunc(dateO); /# 取 当前 日 期 闷 
%let v year = Vesysfunc(year(&v curr db); /# 取 当前 
%let v month = %sysfunc(month(&v_curr_dt)); 人 # 取 当前 月 份 闷 
%let v day = %sysfunc(day(&v_curr dt)); Jb gii H */ 
%let v c date = %eval(&v_year*10000 + &v month*100 + &v day) /*3zby dg H BH*/ 
%put v c date; /xX 实 际 数据 业务 日 期 输出 到 日 志 窗口 */ 


【程序 解读 】 
(D v_curr dt=%sysfunc(date(): 取 当 前 系统 日 期 赋值 给 宏 变 
(2 v year- %sysfunc(year(&v_curr dt)): 取 当 前 系统 日 期 年 份 。 
© v month = %sysfunc(tmonth(&v_curr dt): 取 当 前 系统 日 期 月 份 。 
@ v day = %sysfunc(day(&v_curr db): 取 当 前 系统 日 期 的 日 。 
(9 v c date = 9eeval(&v year*10000 + &v_month*100 + &v_day): 根据 实际 业务 日 期 拼接 
日 期 为 yyyymmdd 格式 日 期 。 
2) MDY 函数 。 
语法 格式 : MDY(month,day,year) 
【语法 解读 】 
month: 为 输入 的 月 份 ， 从 1 一 12 月 的 整数 值 。 
day: 为 输入 的 天 数 ， 从 1 一 31 的 整数 值 。 
year: 为 输入 的 两 位 或 4 位 的 年 份 整数 值 。 
功能 : 从 month 、day、 year 中 返回 一 个 SAS 日 期 值 。 
【 例 5.24】 批量 读 取 3 个 连续 日 期 下 的 文件 ， 数 据 集 命名 为 1xfil_ yyyymmdd 格式 ， 存 储 
到 dNx 文件 夹 。 


分 */ 


- 


o 


> H 


libname jx 'd:\jx'; 
%macro readfile(); 
%let path=D:\jx; 
%let beg dt=%sysfunc(mdy(6,01,2012)); 放 定义 开始 日 期 */ 
%let end dt=%sysfunc(mdy(6,03,2012)); 放 定义 结束 日 期 */ 
%do i=&beg dt. %to &end dt.; 
Volet v dt=%sysfunc(compress(%sysfunc(putn(&i.,yymmdd10.)),-)); 
%let path= D:jxM. &v dt; /* E XAK AEK, 
%let type=.txt; 
filename fil "&path.&type."; 
data jxxfil &v dt.;/*/EjX 3 个 带 日 期 的 数据 集 */ 
infile fl ; 
input id 


name $; 
run; 
%end; 
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【 程 


%mend; 


%readfile(); /x* 调 用 宏 过 程 */ 


可 


序 解读 】 


(D %let beg_dt=%sysfunc(mdy(6,01,2012)): 利用 MDY 函数 取 定 义 的 开始 日 期 。 

Q) %let end dt=%sysfunc(mdy(6,03,2012)): 利用 MDY 函数 取 定 义 的 结束 日 期 。 

(3) %do i=&beg dt. %to &end dt.: 循环 控制 语句 。 

(4) %letv dt=%sysfunc(compress(%sysfunc(putn(&i.,yymmdd10.)),-)): 处 理 日 期 生成 yyyy 
mmdd 格式 。 


© data jx.Ixfil &v dt: 数据 步 名 为 宏 变 量 名 的 组 合 ， 生 成 xfil_yyymmdd 格式 数据 集 。 


3) WEEKDAY 函数 。 


WEEKDAY 函数 返回 一 个 
语法 格式 : WEEKDAY (v date) 
【语法 解读 】 v date 为 输入 日 
从 输入 日 期 输出 星期 几 ，1=Sunday, 2=Monday,…, 7=Saturday。 
【 例 5.25】 求 当前 


功能 : 


期 的 星期 几 。 


data — null ; 
y=date0;/* 取 当前 日 期 六 


期 星期 几 。 


期 。 


Vv_weekday=weekday(y); 放 返回 星期 几 */ 
put v weekday; 
run; 
【程序 解读 】 
v weekday-weekday(y): 返回 y 日 期 星期 几 。 
4) QTR 函数 。 
语法 格式 : QTR (v date) 


【语法 解读 】 v date: 为 输入 日 期 。 


功能 : 


4 代表 第 四 季度 。 


在 


些 按 季度 结算 的 业务 中 经 常 月 


根据 输入 日 期 返回 一 个 数值 ，1 代表 第 一 季度 ，2 代表 第 二 季度 ，3 代表 第 三 季度 ， 


H QTR 函数 来 求 出 日 期 对 应 一 年 的 第 几 个 季度 。 


【 例 5.26】 根据 不 同 的 季度 调整 价格 ， 求 出 每 季度 应 收入 的 钱 数 。 


%let path- D:jxWrice; /定义 外 部 文件 路 径 */ 


%let type=.txt; 
Volet fil- "&path&type"; 


libname jx 'dix; /* NOZ 4E */ 


data jx.price(drop=bh v dt); 
Infile  &fil ; 


EUER: 


Informat — xs dt date8; 


Input bh 
sc name 
xs dt 
amt 


:$5. 


TL 


H 


存储 到 指定 逻辑 库 */ 


期 */ 
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, 


v. dt- input(put(xs dt, 10.), yymmdd10.);/*xJ]25.[& H HFEA H BEER 7 
dtr=qtr(v_db;/# 根 据 日 期 求 出 对 应 的 季度 六 
select (qtr); 
/*QTR 季度 值 求 出 对 应 价格 */ 

When (1) price-6; 
When (2) price-5.2; 
When (3) price-4.8; 
otherwise — price-7.1; 


end; 


sr money-amt * price; /* ifictkAc*/ 


format 
run; 
【程序 解读 】 
(D qtr=qtr(v_dt) 


v dt yymmddlO.; 


: 求 出 日 期 的 季度 。 


@) select 语句 模 


5) HMS 函数 和 DHMS 函数 。 
HMS 消 数 是 对 时 间 处 理 的 函数 ， 返 回 一 个 SAS 时 间 。DHMS 函数 只 是 多 了 
其 他 与 HMS 函数 相同 。DHMS 函数 包含 日 期 和 时 分 秒 。 


据 QTR 季度 变量 赋值 不 同 的 price〈 价 格 )。 


HMS 函数 语法 格式 : HMS (v hourv minute,v second) 


【语法 解读 】 


v hour: 为 输入 小 时 的 数值 。 


v minute: 为 输入 分 钟 的 数值 。 


v second: 为 输入 秒 的 数值 。 
功能 : 根据 输入 时 间 数 值 返回 一 个 SAS 时 间 。 
DHMS 函数 语法 格式 : DHMS (v date,v hourv minute,v second) 


【语法 解读 】 
v date: 为 输入 


期 的 数值 。 


v hour: 为 输入 小 时 的 数值 。 

v minute: 为 输入 分 钟 的 数值 。 

v second: 为 输入 秒 的 数值 。 

功能 : 根据 输入 日 期 时 间 数 值 返回 一 个 SAS 日 期 时 间 。 


【提示 】 DHMS 函数 与 HMS 函数 属于 


【 例 5.27】 根 


输入 的 时 分 秒 取出 时 间 格 式 。 


data datetime; 


input v date v hour v min v sec; 

v time-hms(v hour,v min,v sec); *HMS 函数 根据 输入 的 时 分 秒 取 出 时 间 */ 

v. dt- input(put(v date, 10.), yymmdd10.);/#* 对 数值 日 期 转换 为 日 期 格式 */ 

v. datetime-dhms(v dbv_ hour,v min,v sec)/*DHMS 函数 根据 输入 的 日 期 和 时 分 秒 返 
format v time time. v datetime datetime.; /* 定 义 输出 格式 */ 


cards; 
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司 一 类 函数 ， 可 以 对 比 学 习 其 不 同 之 处 。 


LH 


期 时 间 */ 


20100323 10 32 43 
20100323 10 36 33 


us 
【程序 解读 】 

(D v_time=hms(v_ hourv min,v sec): 通过 HMS 函数 对 输入 的 时 分 秒 取 出 时 间 ， 赋 值 给 
变量 v_ time。 

(2 v datetime-dhms(v dbv hourv min,v sec): DHMS 函数 根据 输入 的 日 期 和 时 分 秒 返 回 
日 期 时 间 。 

6) DATEPART 函数 。 

对 于 实际 业务 需求 如 果 只 是 需要 日 期 部 分 而 不 需要 时 间 部 分 可 以 应 用 DATEPART 函数 
取 对 应 日 期 。 

语法 格式 : DATEPART (v_datetime) 

【语法 解读 】 v_datetime: 为 输入 的 日 期 时 间 。 

功能 : 根据 输入 日 期 时 间 返 回 一 个 SAS 日 期 部 分 。 

【 例 5.28】 对 例 5.27 进行 改造 。 


data datepart; 
input v date v hour v min v sec; 
v. dt- input(put(v date, 10.), yymmdd10.);/* X ŽUR H 895864573 H BRE S */ 
v. datetime-dhms(v dtv hour,v min,v sec)/*DHMS 函数 根据 输入 的 日 期 和 时 分 秒 返 
V_datepart=datepart(v_datetime);* 取 日 期 部 分 */ 
format v datetime datetime. v datepart yymmdd10.; /定义 输出 格式 */ 
cards; 
20100323 10 32 43 
20100323 10 36 33 


H 
LH 


HIST [RT / 


run; 

【程序 解读 】 
v datepart-datepart(v datetime): 根据 输入 的 日 期 时 间 变 量 取 日 期 部 分 。 
7) INTCK 函数 。 
对 于 金融 业经 常用 INTCK 函数 求 两 个 日 期 之 间 间 隔 的 年 数 、 月 数 。 
语法 格式 : INTCK (date intervalv_startdate,v_enddate ) 

【语法 解读 】 
date interval: 为 输入 的 日 期 间隔 值 ， 如 DAY, WEEK, MONTH, QTR, YEAR., 

HOUR 等 。 

v startdate: 输入 的 开始 日 期 。 
v_enddate: 输入 的 结束 日 期 。 
功能 : 返回 两 个 日 期 按 间 隔 求 出 的 间隔 值 。 
【 例 5.29】 根据 客户 刷卡 交易 额 ， 求 出 到 账单 还 款 日 没有 还 款 ， 预 期 的 利息 。 


H 


c— 
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data card. inerest; 
input id name $ tras money begin dt date7. rate; 
days-intck('day';begin dt/31mar12'd);/*INTCK 函数 求 出 预期 的 天 数 */ 
V_inerest=tras_money*rate*days; 放 收 取 客 户 利息 */ 

cards; 

10001 马 小 红 2000 08jan12 0.52 

10002 杨 小 红 3500 08feb12 0.62 


E 


run; 


【程序 解读 】 


days=intck('day',begin_dt,'31mar12'd): 通过 INTCK 函数 根据 账单 日 和 账单 还 款 结束 日 期 


求 出 预期 的 天 数 。 
8) TODAY 函数 。 
TODAY 函数 返回 系统 当前 日 期 。 
语法 格式 : TODAYO 
功能 : 返回 当前 SAS 日 期 值 。 
【 例 5.30】 TODAY 函数 返回 当前 系统 日 期 。 


*today 函数 返回 当前 日 期 ; 
data today; 
v today-today(; /*TODAY 函数 返回 当前 日 期 */ 
format v today yymmdd10.; 
run; 
【程序 解读 】 
(D v today=today0: TODAY 函数 返回 当前 日 期 。 
(2) format v today yymmdd10. : 语句 定义 其 输出 日 期 格式 。 
9) DATETIME 函数 。 
DATETIME 函数 返回 当前 SAS 日 期 时 间 值 。 5; TODAY 函数 对 比 可 以 发 现 ， 
DATETIME 函数 具有 日 期 和 时 间 值 。 
语法 格式 : DATETIME0O 
功能 : 返回 当前 SAS 日 期 时 间 值 。 
【 例 5.31】 DATETIME 函数 应 用 ， 请 取出 当前 SAS 系统 的 日 期 时 间 。 
程序 如 下 : 


*datetime 函数 返回 当前 日 期 ; 

data datetime; 
V_datetime=datetime0; /*DATETIME 函数 返回 当前 日 期 时 间 */ 
format v datetime datetime.; 


run; 


【程序 解读 】 
v_datetime=datetime(): DATETIME 函数 返回 系统 当前 日 期 时 间 。 


732 


不 同 点 


El 
p 


(4) 统计 函数 


对 于 统计 专业 而 言 ， 经 常 需要 对 实际 数据 做 数理 统计 ，SAS 系统 也 考虑 到 了 这 一 


点 ， 内 部 编译 好 了 很 多 统计 函数 ， 来 满足 统计 学 的 实际 应 用 。 常 用 统计 函数 如 表 5-4 
所 示 。 
表 5-4 常用 统计 函数 
统计 函数 名 功能 说 明 
MEAN 计算 几何 平均 数 
PDF 计算 分 布 密度 
PROBNORM 计算 标准 正 态 分 布 概率 
VAR 计算 方差 
STD 计算 标准 差 
STDERR 计算 均值 估计 的 标准 误差 
CV 计算 变异 系数 
SKEWNESS 计算 偏 斜 度 
KURTOSIS 计算 峰 度 值 
USS 计算 未 校正 的 平方 和 
CSS 计算 修正 的 离 差 平方 和 
RANGE 计算 最 大 值 和 最 小 值 之 间 的 极 差 
1) MEAN 函数 。 
语法 格式 : MEAN (v numl,v num2,…,v_numN ) 
【语法 解读 】 
v numl,v num2.,v numN: 为 输入 的 数值 。 
功能 : 对 输入 数值 求 几何 平均 数 ， 为 (v_numl+tv_num2+…+v_numN) AN 的 几何 平 
均 数 。 
【 例 5.32】 MEAN 函数 应 用 ， 求 出 maths. English. Chinese 这 3 门 课程 的 几何 平均 值 。 
程序 如 下 : 
data score; 
Input id name $ maths English Chinese; 
Vv_mean=mean(maths,english,chinese);。/* 求 几何 平均 数 */ 
cards; 
1001 高 宏 78 89 60 
1002 马 小 名 88 6779 


1003 杨 小 和 98 87 86 


d 


run; 


【程序 解读 】 


v mean-mean(maths,english,chinese): 对 3 科 成 绩 求 几何 平均 数 。 
2) PDF 函数 和 PROBNORM 函数 。 


PDF IZ 


^18 25 FÉ, PROBNORM 函数 计算 标准 


PDF 语法 格式 : PDF('v dist,v parml,*,v parmN) 


正 态 分 布 概率 ， 两 者 都 是 计算 分 布 。 
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【语法 解读 】 
v dist: 确定 分 布 状态 ， 取 值 如 'BERNOULLI'、'BETA'、'BINOMIAL'、'CAUCHY'、 
'CHISQUARE', 'EXPONENTIAL', 'F', 'GAMMA', 'GEOMETRIC', 'HYPERGEOMETRIC', 
'LAPLACE' , 'LOGISTIC', 'LOGNORMAL' , 'NEGBINOMIAL' , 'NORMAL''GAUSS' 、 
'NORMALMIX', 'PARETO', 'POISSON', 'T', 'UNIFORM', 'WALD''IGAUSS', "WEIBULL'. 
v parml,:,v parmN: 为 参数 表 ， 根 据 形 状 、 位 置 或 范围 设置 的 参数 。 
功能 : 求 分 布 密度 值 。 
PROBNORM 函数 语法 格式 : PROBNORM (v y) 
【语法 解读 】 v y: 为 输入 的 随机 变量 数值 。 
功能 : 求 标 准 正 态 分 布 的 概率 。 
【 例 5.33] PDF 函数 应 用 ， 求 出 分 布 状态 为 “BETA” 随机 变量 为 8、 自 由 度 为 2、 分 
布 密度 为 1 的 分 布 密度 值 ,， PROBNORM 函数 应 用 ， 求 出 标准 正 态 分 布 观 测 值 小 于 或 等 于 1.6 
的 概率 值 。 
程序 如 下 : 
data pdf probnorm; 
pdfchf-pdf('BETA',8,2,1); 
/*PDF 函数 求 卡 方 分 布 ，8 为 随机 变量 ，2 为 自由 度 ，1 为 分 布 密 度 */ 
probnorm=probnorm(1 .6); 


入 标准 正 态 分 布 的 观察 值 小 于 或 等 于 1.6 的 概率 值 */ 


run; 


【程序 解读 】 

®© pdfchf-pdf(BETA'8,2,1): PDF 函数 求 卡 方 分 布 ，8 为 随机 变量 ，2 为 自由 度 ，!] 分 
布 密度 。 

@) probnorm-probnorm(1.6): 标准 正 态 分 布 的 观察 值 小 于 或 等 于 1.6 的 概率 值 。 

3) VAR 函数 、STD 函数 和 STDERR 函数 。 

VAR 函数 属于 统计 学 中 的 计算 方差 函数 ，STD 函数 属于 统计 学 中 的 计算 标准 差 函 数 ， 
STDERR 函数 为 计算 均值 估计 的 标准 误差 函数 。 

VAR 函数 语法 格式 : VAR(x1,x2,…,xn) 

【语法 解读 】 x1,x2, .xn: 为 输入 的 数值 。 

STD 函数 语法 格式 : STD(x1,x2,…,xn) 

【语法 解读 】 x1,x2,…,xn: 为 输入 的 数值 。 

功能 : 求 标准 差 。 

STDERR 函数 语法 格式 : STDERR(x1,x2,…,xn) 

【语法 解读 】 x1,x2,…,xn: 为 输入 的 数值 。 

功能 : 求 均 值 估计 的 标准 误差 。 

【 例 5.34】 VAR 函数 求 出 2、4 和 8 的 方差 , STD 函数 求 出 2、4 和 8 的 标准 差 , STDERR 
函数 求 出 2、4 和 8 的 标准 误差 。 


data fun; 
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varf-var(2,4,8); 
/*VAR 求 2、4 和 8 的 方差 */ 
stdf-std(2,4,8); 
P'STD cR 2. 4 和 8 的 标准 差 */ 
stderrf-stderr(2,4,8); 
/*STDERR R 2. 4 和 8 的 均值 估计 的 标准 误差 */ 
run; 
【程序 解读 】 
(D varf-var(2,4,8): VAR 统计 函数 求 2、4 和 8 的 方差 。 
(2) stdf=std(2,4,8): STD 函数 求 2、4 和 8 的 标准 差 。 
© stderrf=stderr(2,4,8): STDERR 统计 函数 求 2、4 和 8 的 均值 估计 的 标准 误差 。 
4) CV 函数 。 
CV 函数 计算 变异 系数 。 
语法 格式 : CV(x1,x2,…,xn) 
【语法 解读 】 x1,x2…,xn: 为 输入 的 数值 。 
【 例 5.35】 CV 函数 求 出 2、4 和 8 的 变异 系数 。 


*CV 函数 求 变异 系数 ; 
data cv; 
cvf-cv(2,4,8); 
/*CVH 函数 求 2、4 8 的 变异 系数 所 


run; 


ub 


5) SKEWNESS 函数 和 KURTOSIS 函数 。 

SKEWNESS 函数 计算 偏 斜 度 ，KURTOSIS 函数 计算 峰 度 值 。 

SKEWNESS 函数 语法 格式 : SKEWNESS (x1,x2,…,xn) 

【语法 解读 】 x1,x2,…,xn: 为 输入 的 数值 。 

功能 : 求 偏 斜 度 。 

KURTOSIS 函数 语法 格式 : KURTOSIS(X1,X2,…,XN) 

【语法 解读 】 xLx2,-xN: 为 输入 的 数值 。 参 数 至 少 有 4 个 值 。 

功能 : 求 峰 度 值 。 

【 例 5.36】 SKEWNESS 函数 求 出 2、4 和 8 的 偏 斜 度 ，KURTOSIS 函数 求 出 2、4、5 和 
8 的 峰 度 值 。 

程序 如 下 : 


data ske kur; 
skewf-skewness(2,4,8); 
/*SKEWNESS ;K 2. 4 和 8 (fiii E / 
kurtosisf-kurtosis(2,4,5,8); 
/*KURTOSIS :& 2. 4. 5 和 8 的 | 


run; 


e RENJ 
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【程序 解读 】 

(D skewf=skewness(2,4,8): SKEWNESS 函数 求 2、4 和 8 的 偏 斜 度 。 

(2) kurtosisf-kurtosis(2,4,5,8): KURTOSIS 3R 2. 4. 57 8 的 峰 度 。 

6) USS 函数 和 CSS 函数 。 

USS 函数 计算 未 校正 的 平方 和 ，CSS 函数 计算 修正 的 离 差 平方 和 。 

USS 函数 语法 格式 : USS(X1,X2,…,XN) 

【语法 解读 】 x1,x2, .…,xN: 为 输入 的 数值 。 至 少 有 一 个 非 缺 失 值 。 

功能 : 求 未 校正 的 平方 和 。 

CSS 函数 语法 格式 : CSS(X1,X2,…,XN) 

【语法 解读 】 x1,x2, .xn 为 输入 的 数值 。 至 少 有 一 个 非 缺 失 值 。 

功能 : 求 修正 的 离 差 平方 和 。 

【 例 5.37】 USS 函数 应 用 ， 求 出 2、4、6 和 8 未 校正 的 平方 和 ; CSS 函数 应 用 ， 求 出 2、 
4、6 和 8 修正 的 离 差 平方 和 。 

程序 如 下 : 


data uss css; 
ussf-uss(2,4,6,8); 
USSR 2. 4. 6 和 8 未 校正 的 平方 和 */ 
cssf-css(2,4,6,8); 
[CSSR 2. 4. 6 和 8 修正 的 离 差 平方 和 */ 


run; 


【程序 解读 】 
(D ussf=uss(2,4,6,8): USS 函数 求 2、4、6 和 8 未 校正 的 平方 和 。 
(2) cssf=css(2,4,6,8): CSS 函数 求 2、4、6 和 8 修正 的 离 差 平方 和 。 
7) RANGE 函数 。 
RANGE 函数 计算 最 大 值 和 最 小 值 之 间 的 极 差 。 
语法 格式 : RANGE (X1,X2,…,XN) 
【语法 解读 】 x1,x2,…,xN: 为 输入 的 数值 。 至 少 有 一 个 非 缺 失 值 。 
功能 : 求 最 大 值 和 最 小 值 之 间 的 极 差 。 
【 例 5.38】 RANGE 函数 应 用 ， 求 出 -2、4、6 和 9 一 组 数据 中 最 大 值 和 最 小 值 之 间 的 
极 差 。 
程序 如 下 : 


*range 函数 求 最 大 值 和 最 小 值 之 间 的 极 差 ; 


data range; 


range-range(-2,4,6,9); 
/*RANGE :K2. 4. 6 和 9 中 最 大 值 和 最 小 值 之 间 的 极 差 */ 
run; 
【程序 解读 】 
range=range(-2,4,6,9): RANGE 统计 函数 求 -2、4、6 和 9 中 最 大 值 和 最 小 值 之 间 的 极 差 。 
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5.1.2. Hd S FER 


对 于 SAS 系统 而 言 ， 大 部 分 的 数据 处 理 是 在 数据 步 ， 函 数 在 数据 步 应 用 的 概率 比较 高 。 
民 据 业务 需求 通过 数据 步 引 用 函数 对 变量 进行 处 理 ， 才 能 满足 需求 。 
【 例 5.39】 处 理 客户 交易 数据 文件 ， 并 取出 区 号 、 电 话 号 码 、 出 生年 份 。 


* 文 件数 据 字段 根据 业务 需求 处 理 字段 ， 生 成 符合 业务 需求 的 数据 集 ; 
%let path= Di:NjxYjiaoyi;。 记 定义 外 部 文件 路 径 */ 
%let type=.dat; 
%let filename- "&path&type"; 
libname jx 'dix; /*xE OP dHEES/ 
data jx jiaoyi(keep=zone tel name ed jy address birthday); /* ZE f fei S48 em 48 Pg */ 
Infile  &filename  dlm-' dsd  missover 
input phone :$12. 
name :$8. 


E 


dq :$4. 
sf :$18. 
ed :6. 


jy. address :$20. 


length zone $3.; /* 定 义 了 一 个 业务 需求 变量 区 号 */ 

zone= scan(phone, 1,'#'); 
/# 根 据 业 务 需 求 用 SAS 内 部 函数 scan 处 理 字段 phone， 取 出 区 号 */ 
length tel $8.;/* 定 义 了 一 个 业务 需求 变量 电话 号 码 */ 
tel= scan(phone,-1,'#'); 
/根据 业务 需求 用 SAS 内 部 函数 scan 处 理 字段 phone， 取 出 电话 号 码 */ 
Length birthday $8.; /* 定 义 了 一 个 业务 需求 变量 出 生日 期 */ 
birthday= substr(sf,7,8); 
人 # 根 据 业务 需求 用 SAS 内 部 函数 substr 截取 字段 身份 证 号 ， 取 出 出 生 


run; 
【程序 解读 】 
1) zone= scan(phone,1, 47): 通过 scan 函数 取出 区 号 。 
2) tel= scan(phone,-1,47): 通过 scan 函数 取出 电话 号 码 。 
3) birthday= substr(sf,7,8): 通过 substr 函数 取出 出 生年 份 。 


5.1.8. ZU fe 5| HERZ 


宏 过 程 引 用 函数 是 通过 宏 过 程 对 功能 封装 ， 其 内 部 数据 处 理 对 函数 应 用 ,根据 业务 需求 ， 
对 变量 处 理 ， 从 而 满足 业务 需求 。 宏 过 程 第 6 章 会 单独 讲解 。 


B 


Ea” 


【 例 5.40】 对 例 5.39 进行 改造 ， 应 用 宏 过 程 实现 。 
%macro jiaoyi(v_filname,v_type);/* 定 义 文件 名 变量 和 文件 类 型 */ 


* 文 件数 据 字段 根据 业务 需求 处 理 字段 ， 生 成 符合 业务 需求 的 数据 集 ; 
%let path= D:jxW&v filnaame; /* 7E X P EOSCUERR TES 
Volet type-&v type; 
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%let filename- "&path&type"; 

libname jx'd:yjx" /* E XP 4REE*/ 

data jx jiaoyisj(keep=zone tel name ed jy address birthday); /* 数 ] 
Infile  &filename dlim=| dsd  missover 


IT 
iu 


RTENE Sla Em REN 


input phone :$12. 
name :$8. 


dq :$4. 
sf :$18. 
ed :0. 


jy. address :$20. 

length zone $3.; /* 定 义 了 一 个 业务 需求 变量 区 号 */ 

zone= scan(phone, 1,'#'); 
入 根据 业务 需求 用 SAS 内 部 函数 scan 处 理 字段 phone， 取 出 区 号 */ 
length tel $8.;/* 定 义 了 一 个 业务 需求 变量 电话 号 码 */ 
tel= scan(phone,-1,'#'); 
人 # 根 据 业务 需求 用 SAS 内 部 函数 scan 处 理 字段 phone， 取 出 电话 号 码 */ 
length birthday $8.;/* 定 义 了 一 个 业务 需求 变量 出 生日 期 */ 
birthday= substr(sf,7,8); 
/# 根 据 业 务 需 求 用 SAS 内 部 函数 substr 截取 字段 身份 证 号 ， 取 出 出 生年 份 */ 


run; 


%mend  jiaoyi; 
%jiaoyi(jiaoyi,.dat); 
【程序 解读 】 
1) %macro jiaoyi(v filname,v type): %macro 宏 过 程 开始 语句 , jiaoyi 定义 宏 名 , v. filname 
和 v type 为 宏 参 数 。 
2) zone= scan(phone,1,77): 通过 scan 函数 取出 区 号 。 
3) tel= scan(phone,-1,'#'): 通过 scan 函数 取出 电话 号 码 。 
4) birthday= substr(sf,7,8): 通过 substr 函数 取出 出 生年 份 。 
5) %mend jiaoyi:%mend: 宏 结束 标志 。 
6) 94jiaoyi(jiaoyi,.dat): % 宏 名 为 宏 调 用 ， 传 递 实 参 jiaoyi 和 .dat 给 所 定义 的 宏 变量 。 


5.1.4. 丽 数 综合 应 用 


实际 的 业界 开发 中 在 宏 变 量 、 数 据 步 和 宏 过 程 中 都 会 应 用 到 函数 ， 综 合 应 用 是 实际 业界 
开发 中 经 常用 到 的 。 

【 例 5.41】 根据 数据 文件 日 期 处 理 相 应 数据 ， 批 量 生成 对 应 日 期 的 数据 ， 存 储 到 d:\jx 
H 3. 批量 读 取 d: jx 目录 下 的 3 个 文件 jiaoyi 20120601.dat jiaoyi 20120602.dat 和 jiaoyi - 
20120603.dat。 


x1 


必 批 量 读 取 dx 目录 下 的 3 个 文件 jiaoyi_ 20120601.dat.jiaoyi 20120602.dat 和 jiaoyi 20120603.dat*/ 
libname jx 'd:\jx'; 

从 批量 处 理 按 日 期 命名 的 文件 %/ 

%macro plfile(v type); 

%let path-D:Vx; 
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%let beg dt-?osysfunc(mdy(6,01,2012));/*xE XF tR H HH*/ 

%let end dt=%sysfunc(mdy(6,03,2012)); 放 定义 结束 日 期 */ 

%do i=&beg dt. %to  &end dt.; 
Volet v dt=%sysfunc(compress(%sysfunc(putn(&i.,yymmdd10.)),-)); 
%let path= D:jxjiaoyi &v dt; /定义 外 部 文件 路 径 */ 
%let type-&v type; 

filename fil "&path.&type."; 


IT 
iu 


data jxjiaoyisj &v dt(keep-zone tel name ed jy address birthday);。/* 数 据 集 存储 到 指定 逻辑 库 */ 


Infile fil dlm='| dsd missover ; 
input phone :$12. 


name  :$8. 


dq :$4. 
sf :$18. 
ed :0. 


jy. address :$20. 
length zone $3.; /* 定 义 了 一 个 业务 需求 变量 区 号 */ 
zone= scan(phone, 1,'#'); 
人 根据 业务 需求 用 SAS 内 部 函数 scan 处 理 字段 phone， 取 出 区 号 */ 
length tel $8.; /x* 定 义 了 一 个 业务 需求 变量 电话 号 码 */ 
tel= scan(phone,-1,'#'); 
人 # 根 据 业 务 需 求 用 SAS 内 部 函数 scan 处 理 字段 phone， 取 出 电话 号 码 */ 
length birthday $8.;/* 定 义 了 一 个 业务 需求 变量 出 生日 期 */ 
birthday= substr(sf,7,8); 
/# 根 据 业 务 需 求 用 SAS 内 部 函数 substr 截取 字段 身份 证 号 ， 取 出 出 生年 份 */ 
run; 
%end; 
%mend; 
%plfile(.dat);/* 调 用 宏 过 程 */ 


【程序 解读 】 
1) %do i-&beg dt. %to &end_dt.: 根据 定义 的 日 期 变量 循环 执行 。 
2) jxjiaoyisj &v dt: 生成 的 数据 集 为 jiaoyisj yyyymmdd 格式 数据 集 名 。 
3) zone= Scan(phone,1,#): 通过 scan 函数 取出 区 号 。 
4) tel= scan(phone,-1,47): 通过 scan 函数 取出 电话 号 码 。 
5) birthday- substr(sf,7,8): 通过 substr 函数 取出 出 生年 份 。 
6) %plfile(.dab: 调用 宏 过 程 ， 传 递 实 参 .dat。 


5.2. 信用卡 收 入 分 析 案 例 


中 国信 用 卡 市 场 目前 处 于 高 速 发 展期 。 信 用 卡 收入 的 主要 来 源 有 所 

付款 费 、 取 现 等 。 
D 发 卡 行 收取 开户 用 户 的 发 卡 费 ， 如 每 张 100 元 ， 包 括 挂失 、 损 失重 新 补办 卡 等 。 
2) 透 文 利息 收入 ， 透 支 利息 收入 利率 很 高 ， 每 天 万 分 之 五 至 干 分 之 一 。 


a 


卡 佣金 、 年 费 、 分 期 


3) 向 特约 商户 收取 的 佣金 是 信用 卡 对 特约 商户 的 费用 收取 。 

4) 信用 卡 取现 ， 如 跨行 取现 、 跨 地 区 取现 的 费用 。 

5) 向 客户 递送 对 账单 ， 对 账单 附带 的 广告 收入 。 

6) 商家 酒店 、 航 空 公司 向 持 卡 客户 推出 打折 服务 ， 之 后 向 商家 收取 的 介绍 费 。 

【 例 5.42】 某 客户 账单 日 为 2011-12-07， 到 期 还 款 日 为 2011-12-26， 上 期 应 还 款额 为 
1881.32， 上 期 已 还 款额 1900.00， 本 期 新 增 金 额 1728.36， 求 本 期 应 还 款额 和 最 低 还 款额 。 

【分 析 】 

1. 客户 应 还 款额 

每 个 客户 的 信用 卡 都 有 一 个 账单 日 ， 如 本 案例 客户 账单 日 为 每 月 的 8 号 ， 那 么 每 月 的 7 
号 是 其 出 账单 的 对 账 日 ， 这 一 天 客户 应 还 款额 通过 银行 内 部 程序 计算 出 来 。 

客户 应 还 款额 公式 如 下 ; 

客户 应 还 款额 = 上 期 应 还 款额 -上 期 已 还 款额 + 本 期 新 增 金 额 = 本 期 应 还 款额 

2. 最 低 还 款额 

言 息 卡 客户 如 果 在 到 期 还 球 日 前 全 额 偿 还 所 欠 银 行 球 项 有 困难 ， 可 按照 发 卡 机 构 规 定 的 
最 低 还 款额 还 款 。 

最 低 还 款额 的 计算 方法 如 下 : 

最 低 还 款额 = 以 前 最 低 还 款额 累计 未 还 部 分 + 本 月 取现 及 转账 贷款 未 还 部 分 + 本 月 超 限 额 
消费 贷款 + 所 有 未 还 的 限额 内 消费 贷款 X10%。 

按 最 低 还 款额 规定 还 款 的 ， 发 卡 机 构 只 对 未 清偿 部 分 每 日 按 万 分 之 五 计 收 从 银行 记 账 日 
起 至 还 款 日 止 的 贷款 利息 ， 贷 款 利息 按 月 计 收复 利 。 

最 低 还 款额 即使 用 循环 信用 时 需要 偿还 的 最 低 金 
通知 金额 为 准 。 

如 果 在 到 期 还 款 日 之 前 归还 金额 大 于 或 等 于 最 低 还 款额 ， 但 低 于 本 期 应 还 金额 时 ， 只 需 
支付 利息 ; 如 果 低 于 最 低 还 款额 ， 则 除了 利息 外 ,还 要 按 最 低 还 款额 未 还 部 分 的 5%% 支 付 滞 纳 
金 ， 并 会 对 客户 的 信用 记录 造成 影 ! 

如 果 客 户 在 到 期 还 球 日 前 全 额 还 款 ， 则 不 用 支付 利明 ， 享 受 免 息 还 球 期 优惠 。 免 息 还 球 
期 优惠 只 针对 消费 交易 ， 从 交易 日 起 至 到 期 还 款 日 之 间 的 日 期 为 免 息 还 款 期 最 长 56 天 ， 最 
短 25 天 。 系 统 按 年 自动 扣 收 的 年 费 也 享受 免 息 还 款 期 。 


* 信 用 卡 客户 账单 日 还 款 计算 宏 过 程 ; 


%macro Repayment(v previous,v payment,v newactivity,v minpre,v monthcurr,v bycx,v whxe); 


= 
z 


低 于 欠 球 余额 的 10%。 以 对 账单 


i 


o 


data custer; 


v currentb-sum(&v. previous,-&v payment,&v newactivity); /* 本 期 应 还 款额 */ 


Vv_minpayment=sum(&v_minpre,&v_monthcurr,&v_bycx,&v_whxe*0.1);* 最 低 还 款额 */ 
run; 


Proc print data=custer lable; 


= | 


lable _v_currentb=' 本 期 应 还 款额 ”vv_minpayment=' 最 低 还 款额 ; 


run; 
%mend Repayment; 
%Repayment(1881.32,1900,1728.56,0,0,0,1728.56);* 调 用 宏 过 程 */ 
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【程序 解读 】 
1) v currentb-sum(&v previous,-&v payment,&v newactivity);: v currentb 为 本 期 应 还 款 
额 ，v_previous 为 上 期 应 还 款额 ，v_payment 为 上 期 已 还 款额 ，v_newactivity 为 本 期 新 增 金 额 。 
2) v minpayment-sum(&v minpre,&v monthcurr&v bycx,&v whxe*0.1);: v minpayment 
为 最 低 还 款额 ，v_ minpre 为 以 前 最 低 还 款额 累计 未 还 部 分 ，v_monthcurr 为 本 月 取现 及 转账 贷 
款 未 还 部 分 ，v_bycx 为 本 月 超 限额 消费 贷款 ，v_whxe 为 所 有 未 还 的 限额 内 消费 贷款 。 
程序 执行 后 如 图 5713 所 示 。 


Hà 输出 - (无 标题 ) 国 回 加 
20127F08 a 
Obs ”本 期 应 还 款额 RETR 


1 1703.88 172.856 


图 5-13 ”客户 账单 
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第 6 章 宏基 础 与 案例 


6.1 宏基 础 


SAS 系统 将 一 个 变量 、 一 段 程序 或 者 一 个 文本 命名 ， 供 以 后 调用 ， 称 为 宏 。 宏 分 为 宏 变 
量 和 宏 过 程 ， 其 中 宏 过 程 就 是 对 一 些 SAS 语句 实现 某 些 功 能 的 封装 。 为 便于 
利用 ， 通 过 宏 过 程 可 以 调用 封装 在 宏 中 的 SAS 语句 。 


6.1.1 宏 概 述 与 定义 


1. 宏 过 程 概述 

SAS 宏 语言 分 为 宏 变 量 和 宏 过 程 。 宏 变量 相当 于 其 他 语言 定义 的 变量 。 宏 过 程 是 对 SAS 
程序 功能 的 封装 ， 实 现 程 序 的 重复 利用 ， 相 当 于 关系 数据 库 中 的 存储 过 程 。 每 一 个 宏 过 程 实 
现 满足 业务 需求 的 不 同 功 能 ， 用 户 用 到 时 只 需要 知道 宏 过 程 名 即 可 。 

宏 的 主要 功能 如 下 ; 

1) 实现 功能 封装 ， 用 户 用 时 直接 调用 宏 过 程 名 。 

2) 保持 SAS 程序 的 独立 性 和 移植 性 ， 一 段 程序 在 多 种 情况 下 均 可 运行 。 

3) 重复 执行 SAS 程序 。 

4) 获取 SAS 系统 信息 ，SAS 启动 时 就 创建 了 一 些 自 动 宏 变 量 ， 用 以 存储 当前 SAS 进程 
启动 的 日 期 、 时 间 、 版 本 号 及 其 他 信息 ， 用 户 可 以 在 任何 情况 下 使 用 这 些 宏 变量 。 

5) 开发 交互 式 系统 。 使 用 SAS 宏 语 言 的 %Window 语句 及 一 些 基 本 的 编程 语句 开发 交互 
式 用 户 界 面 。 

6) 宏 功 能 可 实现 SAS 程序 的 独立 性 和 移植 性 ， 一 段 程序 在 多 种 情况 下 均 可 运行 ， 得 到 
期 望 的 结果 。 
7) 不 同 的 SAS 数据 步 或 过 程 步 之 间 传 递 数据 ,SAS 宏 变 量 可 在 SAS 的 任何 地 方 被 引用 ， 
有 具有 全 局 性 ， 成 为 不 同 过 程 间 传递 数据 的 方法 。 

2. BEX 

宏 定 义 分 为 宏 变量 定义 和 宏 过 程 定 义 。 

(OD 宏 变 量 定义 

宏 变 量 和 数据 步 中 的 变量 不 同 ， 宏 变量 可 以 在 SAS 程序 的 任何 地 方 引用 和 和 定义， 属于 弱 
类 型 语句 。 数 据 步 中 定义 的 变量 是 与 创建 的 数据 集结 合 起 来 的 ， 变 量 值 与 实际 数据 步 中 传递 
的 观测 有 关 。 宏 变量 有 两 种 :一 种 是 用 户 定义 的 宏 变 量 ， 另 一 种 是 SAS 系统 内 部 具有 的 自动 
j 户 定义 的 宏 变 量 是 指 用 户 根 据 需 求 定 义 的 变量 ， 对 于 用 户 定义 的 宏 变 量 用 户 可 以 
给 变量 赋值 ， 也 可 以 为 空 ， 可 以 指定 范围 ， 通 过 %GLOBAL 声名 可 以 定义 全 局 宏 变 量 ， 默 认 


E 
a 
HI 


宏 变 量 定义 语法 : ALET 宏 变 量 名 <= 赋 实 际 值 >; 
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【语法 解读 】 

%LET: 定义 宏 变 量 的 关键 字 。 

宏 变 量 名 : 用 户 定义 在 宏 语句 中 的 变量 名 ， 命 名 遵守 SAS 命名 规范 。 
<= 赋 实际 值 >: 宏 变 量 根据 需求 可 以 直接 赋 实 际 值 ， 可 选项 。 

【 例 6.1】 %LET 语句 定义 宏 变量 v name. 


%let v name; 


【程序 解读 】 %let ELT EEE v name. 该 宏 变量 虽然 简单 , 但 执行 的 宏 机 制 流程 不 变 。 
如 果 需 要 赋 实 际 值 ， 可 以 直接 赋值 ， 不 需要 另 定义 ，SAS 程序 属于 弱 类 型 
【 例 6.2】 定义 宏 变 量 v_total， 并 赋值 “60”。 

程序 如 下 : 


Volet v str=60; 


【程序 解读 】 定义 宏 变 量 v_sttr， 并 给 宏 变 量 赋 实 际 值 ， 告 诉 宏 解析 器 ， 此 宏 变量 初 值 为 
“60”。 

对 于 宏 变 量 的 引用 ， 需 要 “&” 符 写 ， 具 体 语法 如 下 : 

宏 变 量 引用 语法 : & 宏 名 

【提示 】 间接 引用 宏 变 量 要 用 两 个 && 符 写 ， 如 &&v_varl.&v_var2， 中 间 的 点 . 属于 间接 
引用 分 隔 ， 告 诉 SAS 系 统 是 两 个 宏 变 量 。&&v varl 中 的 第 一 个 “&” 符 号 告诉 SAS 系 统 启动 
宏 TOKEN 解 析 器 ， 然 后 读 到 &v_varl Si m 

对 于 SAS 系统 内 部 具有 的 自动 宏 变 量 ， 可 以 通过 这 些 变 量 查 询 一 些 系统 信息 ， 通 过 宏 语 
句 %PUT 可 以 直接 调用 这 些 自动 宏 id 

[506.3] 调用 自动 宏 变 量 ， 查 询 当 前 日 期 。 

程序 如 下 : 


%put ^ &syslast; 
【 程序 解读 】 %PUT 语句 可 以 直接 调用 自动 宏 变 量 ， 通 过 & 符 号 加 宏 变 量 名 的 方式 直接 
引用 。 


语言 


hill 


【提示 】 
D) 对 于 自动 宏 变 量 _ AUTOMATIC_ 引 用 时 比较 特殊 ， 不 需要 符号 &， 直 接 引 用 ， 方 式 
为 %PUT AUTOMATIC 。 
20 对 于 文本 串 中 引用 宏 变 量 ， 必 须 用 双 引 号 括 起 来 ， 而 不 能 用 单 引号 。 例 如 下 面 的 程序 : 
%let name=chiran; 
DATA fz; 


str-"My name is &name"; /*5| HZ 2E & name*/ 
RUN; 


3) 宏 变 量 中 可 以 直接 引用 宏 函 数 传递 的 值 。 语 法 如 下 : 


%let Vy_var=% 宏 函数 (); 
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{0 


(2) 宏 过 种 


H 


宏 过 程 是 宏 语言 的 核心 ， 宏 过 程 实现 了 程序 的 重复 利用 。 对 于 宏 过 程 而 言 用户 所 调用 的 


宏 过 程 都 是 已 经 编译 好 的 ， 宏 过 程 中 包含 一 些 程序 的 声名 ， 接 收 外 部 传递 的 参数 。 
宏 过 程 语法 格式 : "MACRO 宏 名 <( 宏 参数 ) > </ 参 数 选项 >; 
宏 功 能 语句 ; 
%MEND < 宏 名 >; 


【语法 解读 】 

%MACRO: 定义 宏 过 程 语句 开始 的 关键 字 ， 必 选项 ， 固 定 关键 字 。 

宏 名 : 给 宏 起 的 名 字 ， 命 名 要 遵守 命名 规范 。 

宏 参 数 : 可 选项 ， 给 宏 定义 的 参数 ， 多 个 参数 用 英文 状态 输入 法 下 的 去 号 隔 开 。 


参数 选项 :可 选项 , 参数 可 以 取 CMD, DES-"text", PARMBUFF,PBUFF, STMT, SOURCE, 


SRC, STORE. 


宏 功 能 语句 : SAS 宏 语句 ， 实 现 某 些 功 能 的 SAS 语句 ， 如 数据 步 语句 、 过 程 步 语句 和 宏 


变量 定义 语句 。 
%MEND: 宏 结 束 标志 ， 必 选项 ， 固 定 关 键 字 。 
宏 名 : AMEND 语句 中 的 宏 名 为 宏 开始 处 定义 的 宏 名 ， 此 处 告诉 SAS 系统 宏 过 得 


定义 结 


束 。 可 选项 ， 宏 名 此 处 可 以 省 略 。 


调用 宏 过 程 方法 : 
% 宏 名 < 实 参 >; 


【 例 6.4】 编写 一 个 宏 过 程 ， 无 参数 宏 过 程 ， 


民 据 条 件 生 成 刷卡 交易 数据 集 。 
%let path= D:jxWhuakajy; ”人 定义 外 部 文件 路 径 */ 

%let type=.txt; 

%let fil="&path&type"; 

libname jx 'd:jx" /*xE OP dRHEE/ 

%macro shuaka(); 


data jx.shuak3000(keep-name  monthl month2 month3 month4 
jx.shuakS5000(keep-name monthl month2 month3  month4 
jX.shuakother(keep-name month1 month2 month3 month4 tran max 
族 数 据 集 存储 到 指定 逻辑 库 */ 
infile  &fil; 


tran min); 


input id :$9. 
name :$8. 
month1 8 
month2 :8. 
month3 :8. 
month4 8 


length tran max 8; 
tran max-max(month1,month2,month3,month4); 
/*MAX ŽORE 4 个 月 中 刷卡 交易 的 最 高 额度 */ 
length tran min 8; 
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tran max tran min) 


tran max tran min) 


tran min-min(monthl,month2,month3,month4); 
/*MIN 函数 求 出 客户 4 个 月 中 刷卡 交易 的 最 低 额 度 */ 
if monthl>3000 and  monthl1«5000 then output jx.shuak3000; 
else if monthl>5000 then output ;jx.shuak5000; 
else output jx.shuakother; 


run; 
%mend; 
%shuaka(); /* VAH RE 


【程序 解读 】 


1) BITJE shuaka() 没 有 宏 参 数 ，SAS 系统 对 编辑 好 的 宏 过 程 提 交 后 先 输入 到 组 ; 


2) 宏 过 程 对 数据 步 封装 ， 数 据 步 内 部 根据 站 语句 处 理 数据 。 


32 if monthl>3000 and monthl«5000 then output jx.shuak3000 : monthl>3000 


month1«5000 的 数据 生成 数据 集 存储 到 数据 集 jx.shuak3000 


DX, JR 


后 通过 字符 扫描 组 件 判断 出 是 宏 过 程 , 调 入 TOKEN 解析 器 , 通过 TOKEN 解析 器 的 4 个 组 件 
解析 宏 语句 ， 解 析 完成 ， 传 送 到 编译 器 编译 程序 ， 检 查 没有 语法 错误 后 ， 编 译 通过 。 


4) else if month1>5000 then output jx.shuak5000: month1>5000 0 的 数据 生成 数据 集 存 储 


到 数据 集 jx.shuak5000。 


5) else output jx.shuakother: 不 满足 上 述 两 个 条 件 的 数据 集 生 成 到 数据 集 jx.shuakother。 
【 例 6.5】 对 例 6.4 进行 改造 ,编写 一 个 宏 过 程 ， 有 参数 宏 过 程 ， 根 据 条 件 生 成 刷卡 交 


易 数 据 集 。 


%let path= D:jxWhuakajy; ”人 定义 外 部 文件 路 径 */ 
%let type=.txt; 

%let fil- "&path&type"; 

libname jx'd:jx" /* E XP RE */ 


%macro shuakaycs(v min,v max);/*XE X JE S v min fll v max*/ 


data jx.shuaky3000(keep-name monthl month2 month3 month4 tran max tran min) 


jx.shuaky5S000(keep-name monthl month2 month3  month4 tran max tran min) 


jx.shuakyother(keep-name monthl month2 month3 month4 tran max tran min); 
AE SE ei STR EXP AR Fn 
inflle  &fil ; 


input id :$9. 
name :$8. 
month1 :8. 
month2 :8. 
month3 :8. 
month4 :8. 


length tran max  8.; 
tran max-max(month1,month2,month3,month4); 
[MAX 函数 求 出 客户 4 个 月 中 刷卡 交易 的 最 高 额度 对 


length tran min 8.; 


tran min-min(month1 ,month2,month3,month4); 


/*MIN 函数 求 出 客户 4 个 月 中 刷卡 交易 的 最 低 额 度 */ 
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if monthl>&v min and monthl<&v max then output jx.shuaky3000; 
else if monthl>&v max then output jx.shuaky5000; 
else output jx.shuakyother; 

run; 

%mend; 

%shuakaycs(3000,5000); 

PARITE, HEEK 3000 和 5000 分 别 给 形 参 v. min 和 v max*/ 


【程序 解读 】 
1) %macro shuakaycs(v min,v max): 定义 宏 形 参 v min 和 v_max。 
2) if monthI»&v min and monthl«&v max then output jx.shuaky3000: 形 参 v_ min 和 
v max 传递 给 条 件 语 句 , monthI7&v. min and monthl «&v. max 时 输出 到 数据 集 jx.shuaky3000 . 


3) else if month1>&v max then output jx.shuaky5000: monthl>&v max 时 输出 到 数据 集 


jx.shuaky5000. 
4) else output jx.shuakyother: 上 面条 件 不 满足 时 其 他 情况 输出 到 数据 集 jx. shuakyother. 
5) %shuakaycs(3000,5000): 调用 宏 过 程 ， 并 传递 实 参 3000 和 5000 分 别 给 形 参 v_ min 和 


V_max。 
【 例 6.6】 对 例 6.5 进行 改造 ， 编 写 一 个 宏 过 程 ， 有 参数 宏 过 程 和 宏 选 项 ， 根 据 条 件 生成 
剖 卡 交易 数据 集 。 
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options mstored sasmstore-jx; 

RDI ERT EREE, REFER stroe 选项 使 

%let path= D:\jx\shuakajy; /* 7E XJ WBOCTERRTES/ 

Volet type=.txt; 

Volet fil- "&path&type"; 

libname jx 'd:jx; /* 7E P 48IE*/ 

%macro shuakayxx(v min,v max)/tore secure;/* 81] £& — ^ JI a zb fe */ 

data  jx.shuaky3000(keep-name monthl month2 month3 month4 tran max tran min) 
jx.shuakyS000(keep-name  monthl month2 month3 month4 tran max tran min) 
jx.shuakyother(keep-name monthl month2 month3  month4 tran max tran min); 

PORE SEES SUR EE AR EN 
infile &fil ; 


dH 


时 必须 先 指定 此 语句 才能 用 */ 


input id :$9. 
name :$8. 
month1 :8. 
month2 :8. 
month3 :8. 
month4 :8. 


length tran max 8.; 
tran max-max(month1,month2,month3,month4); 
/*MAX 函数 求 出 客户 4 个 月 中 刷卡 交易 的 最 高 额度 */ 


length tran min 8.; 


Hn 


tran min-min(monthl,month2,month3,month4); 
[MIN 函数 求 出 客户 4 个 月 中 刷卡 交易 的 最 低 额 度 */ 


if monthl>&v min and  monthl«&v max 


else if monthl2»&v max 
else output jx.shuakyother; 

run; 

%mend; 


%shuakayxx(3000,5000); 


then output jx.shuaky3000; 


then output jx.shuaky5000; 


AHERE, HAREK 3000 和 5000 分 别 给 形 参 v min 和 v max*/ 
【程序 解读 】 
1) options mstored sasmstore=jx: 选项 指定 宏 存 储 的 逻辑 库 ， 宏 过 程 中 stroe 选项 使 用 时 
必须 先 指定 此 语句 才能 
2) %macro shuakayxx(v min,v max)/store secure: 创建 一 个 加 密 宏 过 程 ， 指 定 选项 /store 
secure o 
【提示 】 /store secure 选项 使 用 时 必须 先 指定 options mstored sasmstore=jx 语句 , 告诉 SAS 
系统 存储 到 哪个 逻辑 库 ， 否 则 会 报错 ， 语 句 无 效 。 
【 例 6.7】 宏 过 程 实现 数 据 集 copy， 根 据 传递 参数 表 复制 数据 集 到 指定 逻辑 库 。 
libname scr 'di:\jx' 人 # 原 数据 集 逻 辑 库 关 
libname tar 'd:\jx\test; /* 目 标 数 据 集 逻 辑 库 */ 
%macro cb(v table name); 
proc copy in-scr out-tar noclone; /*noclone 选项 应 用 ， 不 复制 原 数 据 集 属性 */ 
select &v table name; 
run; 
%mend cb; 
%cb(custer);* 调 用 宏 过 程 ， 传 递 实 参 数据 集 名 custer 给 形 参 v table name */ 
【程序 解读 】 
1) 宏 过 程 把 copy 过 程 封 装 ， 用 户 只 需要 知道 宏 过 程 名 cb， 调 用 此 宏 过 程 就 可 以 。 
2) %cb(custer): 调用 编译 好 的 宏 过 程 ， 传 递 实 参 数据 集 名 custer 给 形 参 v_table_name。 
6.1.2 ” 宏 过 程 应 用 
实际 开发 中 宏 过 程 应 用 的 概率 比较 高 。 通 过 宏 过 程 应 用 把 数据 步 、 过 程 步 以 及 其 他 能 用 
宏 封 装 的 SAS 程序 封装 成 一 个 过 程 。 用 户 用 到 时 直接 调用 ， 从 而 有 利于 程序 的 管理 和 安全 ， 
对 于 不 全 E SAS 编程 语言 的 用 户 ， 只 需要 告诉 他 这 个 宏 过 程 名 就 可 以 直接 应 用 ， 实 现 满足 业务 
需求 的 功能 。 
【 例 6.8】 编写 一 个 实现 加 减 乘 除 的 宏 过 程 。 
* 实 现 加 减 乘 除 运算 的 宏 过 程 ; 


%macro computer(v jg x 
%if &v jg-add 
PE 


运算 ,%eval 宏 函 数 计算 非 浮 点 型 数 扩 
%else %do; 

%if &v jg-sub %then oput 
/# 求 减法 运算 ，%eval 宏 函 数 计算 非 浮 点 型 


p 


%then %put Voeval(&x--&y); 


实现 加 法 运算 */ 


%eval(&y-&x); 
型 数据 ， 实 现 减法 i 


运算 */ 
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%else %do; 

%if &v jg-div %then %put %eval(&y/&x); 
人 # 求 除法 运算 ，%eval 宏 函 数 计算 非 浮 点 型 数据 ， 实 现 除 法 运算 */ 
%else %put %eval(&y*&x); 
4 EMRAN E, KMR, 

%end; 

%end; 

%mend computer; 
%computer(add,1,2); /*i 
%computer(sub,1,7);  /*7 
%computer(div,2,8);  /*7 
%computer(mult,2,3); /*7 


【程序 解读 】 
D 宏 语 句 % 让 语句 为 条 件 选 择 语 句 ， 宏 语句 以 % 开 始 。&v_jg=add 条 件 成 立 执 行 %then 
语句 ， 实 现 %eval(&x+&y) 的 加 法 运算 。 

2) %else %do Wif &v jg=sub %then %put %eval(&y-&x): 语句 实现 减法 运算 。 
3) %else %do;%if &v_ jg=div %then oput 9oeval(&y/&x): 语句 实现 除法 运算 。 
4) %else %put %eval(&y*&x): 宏 语句 实现 乘法 运算 。 
【 例 6.9】 宏 变 量 为 宏 程 序 ， 将 一 段 程序 赋 给 一 个 宏 变 量 dayin。 

* ASTR 宏 函 数 , 将 一 段 程序 赋 给 一 个 宏 变 量 dayin; ; 

%let dayin=%str( 

proc print data=sashelp.adomsg; 


用 宏 实 现 加 法 运算 */ 
j] 宏 实现 减法 运算 */ 
] 宏 实现 除法 运算 */ 
用 宏 实 现 乘法 运算 ， 这 里 参数 可 以 除 上 面 3 种 情况 外 任意 写 */ 


| 


run; 
» 
&dayin; /# 调 用 宏 变 量 
【程序 解读 】 
1) 通过 %STR( ) 宏 函数 将 一 段 程序 赋 给 一 个 宏 变量 dayin. 
2) PROC print data-sashelp.adomsg;run: 打印 宏 过 程 封装 在 宏 函 数 %str0 中 ， 通 过 此 过 程 
封装 。 
3) &dayin: 调用 宏 变量 ， 实 现 打印 功能 。 
【 例 6.10】 宏 过 程 实现 条 件 过 滤 数 据 集 ， 满 足 程 序 重复 利用 。 取 出 数学 成 绩 在 80 一 90， 
班级 为 1 班 的 学 生 信息 。 


* 


/ 


Vomacro between(v startv end,v class); 

FEKE v. star 和 v end 表示 一 个 变量 范围 的 开始 和 结束 */ 

%let path= D:jxWtuscore; ”A* 定 义 外 部 文件 路 径 */ 

%let type=.txt; 

Volet fil="&path&type"; 

libname jx 'dijx; /定义 逻辑 库 关 

data jxstu score; /x* 数 据 集 存储 到 指定 逻辑 库 */ 
Infile &fil dlim=| dsd missover 
input id :$4. 


E 
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cust name :$8. 


math 3. 
english :3. 
chinese 33. 
class HE 


length stu sum 5.; 
stu sum-sum(math,english,chinese);/*K &v ^£ ^E H p jr / 
run; 
data stu&v start; 
set jx.stu score (where-((math between  &v start and  &v end)and class-&v class)); 
/# 数 学 成 绩 在 v start 和 v end 范围 之 间 的 学 生 */ 


run; 


pul 


proc print data-stu&v start; 
run; 

%mend between; 
%between(80,90,1); 


【程序 解读 】 

1) %macro between(v start,v end,v class): 定义 宏 名 between， 宏 形 参 v_ star 和 v end 表 
示 一 个 变量 范围 的 开始 和 结束 ，v_class 为 班级 。 

2) set jx.stu score (where-((math between &v. start and &v_end) and class-&v class)): 宏 变 
量 形 参 传递 给 where 条 件 语句 ，math 成 绩 在 v_start 和 v end 范围 之 间 [v_start,v_end]， 且 班级 
class 7J v class 变量 的 值 。 

3) %between(80,90,1): 宏 过 程 调 用 ， 传 递 80 给 变量 v_start， 传 递 90 给 变量 v_end， 传 
递 1 给 变量 v_class。 

【 例 6.11】 宏 过 程 中 利用 firstobs= 和 obs= 参 数控 制 读 取 文 件 的 条 数 ， 从 数据 文件 的 第 2 
条 记录 读 取 到 第 4 条 记录 结束 。 


Aem on 


T 


%macro readfile(v path,v type); JE 2: v path 和 v type 分 别 表示 文件 路 径 和 文件 
%let path=&v_path.; /*xE X P oC f ER TE*/ 
Volet type-&v type; 
Volet fil- "&path&type"; 
libname jx 'dx; /*xESOPdRHEES/ 
data jxstu sj; /* 数 据 集 存储 到 指定 逻辑 库 */ 
Infile &fil dlm-| firstobs=2 obs=4 dsd missover ; 


input id :$4. 
cust name :$8. 
math 3 
english :3. 
chinese 3 
class 1 


run; 
%mend  readfile; 
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uud xt); 
必 调 用 宏 过 程 ， 传 递 实 参 路 径 和 文件 类 型 给 变量 v path 和 v type*/ 


【程序 解读 】 
宏 过 程 封装 了 数据 步 处 理 数据 的 过 程 ,“Infile &fil dim='|' firstobs=2 obs=4 dsd 
missover ;” 语 句 读 取 外 部 数据 文件 ，firstobs=2 obs=4 选项 分 别 控制 读 取 文件 从 数据 文件 的 
第 2 条 记录 读 取 到 第 4 条 记录 结束 。 
【 例 6.12】 安 变量 引用 。 


libname jx "dx'; 必定 义 逻 辑 库 对 

%let v_name=stu;/* 数 据 集 变量 名 */ 

%let v lib-jxy/* 罗 辑 库 变量 名 wj/ 

%let desc-"the &v name datasets";* 字 符 串 中 引用 宏 变 量 要 放 于 双 引 号 中 */ 
data | &v lib.&v name; 
上 # 进 行 层 级 引用 ， 如 库 名 . 表 名 ， 库 名 为 宏 变 量 时 ， 一 定 要 在 后 面 加 两 个 “.” 疝 


input id name $; 


cards; 
1001 高 小 红 
1002 杨 小 华 


, 


run; 


【程序 

1) %let ie "the &v. name datasets": 宏 变量 在 字符 串 中 引用 要 放 于 双 引 号 中 。 

2) DATA &v_lib..&v_name.: 宏 变 量 进行 层级 引用 ， 如 库 名 . 表 名 ， 库 名 为 宏 变 量 时 ， 
定 要 在 后 面 加 两 个 “.”。 

【 例 6.13】 数据 集 拆 分 ， 根 据 需 求 把 数据 集 拆 分 成 3 个 ， 第 一 个 数据 集 从 第 1 条 记录 至 
第 5 条 记录 ， 第 二 个 数据 集 从 第 6 条 记录 至 第 10 条 记录 ， 第 三 个 数据 集 从 第 11 条 记录 到 数 
据 集结 


NSA 


PIRA — OS En 
Vomacro splitdata(v first,v obs); 
%if &v firstt&v obs %then %do; 
data sp&v first; 
set sashelp.Bweight (firstobs-&v first obs-&v obs); 
run; 
S oend; 
%else %do; 
data sp&v_first; 
set sashelp.Bweight (firstobs=&v_first); 


run; 
9 oend; 

%mend; 

%splitdata(1,5); 

%splitdata(6,10); 

%splitdata(11);/* 只 有 v first 有 值 ， 取 后 面 的 全 部 */ 
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【程序 解读 】 
1) 宏 过 程 实现 数据 集 拆 分 ， 根 据 %if &v first<&v_ obs 条 件 语 句 判 断 ， 条 件 成 立 执 
行 %do....%end 语句 块 中 的 创建 数据 集 ， 条 件 不 成 立 执 行 %else 语句 中 %do....%end 语句 块 中 
的 创建 数据 集 。 
2) set sashelp.Bweight(firstobs=&v_first obs=&v_ obs): 表示 从 数据 集 firstobs=&v _first 条 

件 的 第 &v_first 条 记录 取 数 ，obs=&v_obs 表示 取 到 变量 传递 的 参数 第 &v_obs 条 结束 。 
3) set sashelp.Bweight(firstobs=&v first): 表示 从 数据 集 firstobs=&v first 条 件 的 第 &v_first 
条 记录 取 数 ， 直 到 结束 。 
【 例 6.14】 宏 过 程 条 件 语 名 应用， 根据 不 同 的 条 件 执行 不 同 的 宏 过程 。 


P* 先 对 外 部 数据 文件 处 理 */ 
%macro sj(V_path,v_type);/*v_path: 文 件 路 径 ，v_type: 文 件 类 型 */ 
%let path-&v path. /定义 外 部 文件 路 径 */ 

%let type-&v type; 

Volet fil- "&path&type"; 

libname jx 'dXx; E XOESREES/ 
data jx.shuaka; /*Al-R3: 5 — H tous 


Tr 


Infile  &fil dim-' dsd  missover ; 

input id :$4. 
amt 6 
year $8 


length month $2.; 
month-substr(year,5,2); 


run; 

%mend sj; 
%sj(D:Nixshuaka,.dab;/# 调 用 宏 过 程 ， 传 递 实 参 路 径 和 文件 类 型 给 变量 v path 和 v type*/ 
诺 刷 卡 交 易 分 析 宏 */ 


%macro analy01; 
proc means data=jx.shuaka(where=(month='01')); 
run; 
%mend; 
%macro analy02; 
proc means data=jx.shuaka(where=(month='02')); 
run; 
%mend; 
%macro analyother; 
proc means data-jx.shuaka(where-(month^-'01' and  month^-'02')); 
run; 
%mend; 
%macro analy(v month); 
%if &v month-01 %then %analy01; 
Voelse %if &v month-02 %then %analy02; 
%else %analyother; 


%mend; 
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%analy(01);* 分 析 一 月 份 刷 卡 交 易 */ 
%analy(02);* 分 析 二 月 份 刷 卡 交 易 */ 
%analy(03);/* 分 析 其 他 月 份 刷 卡 交易 %/ 
【程序 解读 】 
1) %macro analy01: 分 析 一 月 份 数据 宏 过 程 定义 。 
2) PROC means data-jx.shuaka(where-(month-'01)): 根据 where 条 件 取 一 月 份 数据 分 析 。 


3) %macro analy02; 分 析 二 月 份 数据 宏 过 程 定 义 。 


4) PROC means data-jx.shuaka(where-(month-'02)): 根据 where 条 件 取 二 月 份 数据 分 析 。 

5) %macro analyother: 其 他 月 份 数据 分 析 。 

6) %macro analy(v_month); 定 义 一 个 主 宏 ， 此 宏 过 程 根据 条 件 调 其 他 宏 过 程 ， 实 现 了 宏 
程 撕 套利 用 。 


7) %if&v month-01 %then %analy01: &v month-01 条 伯 
8) %else %if&v month=02 %then ?oanaly02: &v month-02 条 人 


F 成 立 执行 调用 宏 过 程 %analy01。 
F 成 立 调用 宏 过 程 %analy02。 


9) %else %analyother: 上 述 条 件 都 不 成 立 ， 执 行 1 


几 用 宏 过 程 %analyother。 


【 例 6.15】 根据 宏 过 程 中 的 条 件 选择 不 同 的 SAS 


能 。 
P* 先 对 外 部 数据 文件 处 理 */ 
%macro sj(v_path,v_type);/*v_path: 文 伯 


%let path=&v_path.; # 定 义 外 部 文件 路 径 次 


%let type-&v type; 
Volet fil- "&path&type"; 
libname jx 'dix; /*E OP 4REE*/ 
data jx.shuaka; ”/* 刷 卡 交 易 一 月 份 数据 */ 
Infile &fil dlm='|' dsd missover ; 
input id :$4. 
amt :6. 
year :$8. 


length month $2.; 
month=substr(year,5,2); 
run; 
%mend sj; 
%sj(D:\jx\shuaka,.dat);/* 3] 
FIRIR PEST END HERIR ERD BE 
%macro choice(v_pro,v_data); 
%if &v_pro=print %then %do; 
data-&v data; 


proc print 
run; 

9 oend; 
%else %then 


%if &v_pro=report %do; 


options date number ps=18 
proc report data=&v_data nowd; 


Column id amt year; 
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内 部 过 程 ， 实 现 数据 集 打印 和 报表 生成 


FEF 路径，v_type: 文 件 类 型 */ 


j 宏 过 程 ， 传 递 实 参 路 径 和 文件 类 型 给 变量 v_path 和 v_type*/ 


ls=80  fmtsearch-(jx); 


Where month='02';/* 取 2 月 份 数 据 */ 
title 'credit cards reports'; 
run; 
%end; 
%mend choice; 
%choice(print;jx.shuaka);/* 传 递 实 参 print， 调 打印 过 程 */ 
%choiceGreportjx.shuaka);/#* 传 递 实 参 report， 调 生成 报表 过 程 */ 


【程序 解读 】 
1) %if&v_ pro=print %then %do: 传递 参数 为 print， 符 合 条 件 执行 打印 功能 。 


2) %else %if &v_pro=report %then %do: 传递 参数 为 report, 符合 条 件 执行 报表 生成 功能 。 


【 例 6.16】 判断 指定 的 罗 辑 库 下 数据 集 是否 存 在 。 


是 否 存在 ; 


* 判 断 逻 笨 库 下 数据 和 


libname jx 'd:\jx'; 


YT 


Vomacro pdsjj(v dataset); 

data null ; 
v name-"&v dataset"; 
if (exist(v name)) then put v name ' 数 据 身 
else put v name ' 数 据 集 不 存在 '; 


已 经 存在 '; 


pau 


run; 
%mend pdsjj; 
%pdsjj(jx.shuaka); /* 宏 调用 ， 传 递 实 参 jx.shuaka 给 宏 变 量 v. dataset*/ 


【程序 解读 】 
1) data null ;: 数据 步 只 是 做 数据 处 理 ， 不 生成 数据 集 ， 数 据 集 名 用 null 。 
2) if (exist(v name)) then put v name ' 数 据 集 已 经 存在 ';;: 此 语句 通过 exist KAG 


hlc 


集 是 否 存 在 。 如 果 条 件 成 立 执行 此 语句 ， 条 件 不 成 立 执 行 “else put v name ' 数 据 集 不 存在 


WE » 
;语句 o 


6.2 ”文件 夹 判 断案 例 


实际 开发 应 用 中 , 数据 文件 或 数据 集 有 时 需要 放 在 Windows 环境 或 UNIX 环境 的 目录 中 。 


如 果 目 录 不 存在 ， 需 要 程序 自动 创建 ， 实 现 了 程序 自动 判断 并 创建 目录 的 自动 化 程序 ， 减 少 


了 人 为 的 干预 。 
【 例 6.17】 Windows 环境 判断 路 径 文件 夹 是 否 存在 ， 不 存在 程序 自动 创建 。 


* 路 径 文件 夹 创建 与 判断 ; 

%let commod-mkdir d:\jx\kaifa; 

Volet path=d:\jx\kaifa; 

%macro panduan; 

%if %sysfunc(fileexist(&path)) %then  Voput ' 路 径 存 在 '; 
%else 

%put “路 径 文件 夹 不 存在 ， 需 要 执行 下 面 语 名 创建 ; 

X &commod; ” 放 调 用 宏 变 量 ， 创 建 路 径 文件 夹 */ 
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%mend; 
%panduan;/* 宏 调用 */ 
程序 执行 后 日 志 窗 口 显示 如 图 6-1 所 示 。 
查看 目录 ， 显 示 路 径 文 件 夹 已 经 自动 创建 ， 如 图 6-2 所 示 。 


日 志 - (无 标题 ) 


JE 
"rh Alleine d: Waifay 

Slet pathzd: Njx\kaifa; 

macro Pandual 

A vifunc(t i leexist (path)) Sthen put BETE; m 
VET 


Q=- 0- 5*7? 


Sel 
iub ?路 径 文件 来 不 存在 ， 需 要 执行 下 面 语句 创建 ; 
X commod; “ip 周 用 宏 变 量 ， 创 建 路 径 文件 夹 #7 


mend; 
85 Sedan: WERA B B 
* 路 径 立 件 来 不 存在 ， 需 要 执行 下 面 语句 创建 ， 


; 地 址 Q0) O D: jx kai fa 


图 6-1 创建 文件 夹 图 6-2 文件 夹 路 径 


【程序 解读 】 

1) %let commod-mkdir d:\jx\kaifa: 定义 宏 变 量 , 赋值 为 Windows 环境 创建 文件 夹 命令 。 

2) %let path-d:jxWaifa: 定义 宏 变量 ， 赋 值 为 Windows 环境 路 径 。 

3) %if "osysfunc(fileexist(&path)) 9ethen %put ' 路 径 存在 ': 通过 宏 条 件 语 句 %if 判断 ， 
fileexist(&path) 函 数 判断 宏 变 量 path 的 值 给 予 的 路 径 是 否 存 在 。 如 果 不 存在 输出 %put 语句 给 
出 的 信息 到 日 志 。 如 果 条 件 不 成 立 ， 执 行 “%else "oput “' 路 径 文件 夹 不 存在 ， 需 要 执行 下 面 
语句 创建 '; 

X &commod; ”语句 ， 通 过 X 命令 执行 宏 变 量 &commod 定义 的 命令 。 


6.3 ”日 期 处 理 
日 期 处 理 是 SAS 开发 中 对 数据 文件 或 数据 集 包含 日 期 变量 的 数据 进行 处 理 。 


【 例 6.181 读 取 路 径 dxvtest 目录 下 的 数据 data 20120601.txt、data_ 20120603.txt 和 
data 20120601.txt. 


P* 根据 日 期 取 相 应 路 径 djxvtest 目录 下 的 数据 文件 */ 
%macro filechoice(v month,v day,v_yean; /*v_ month: H %7, v day:H, v year:fEf3*/ 
%let path-d:jxMest; “定义 外 部 文件 路 径 */ 

%let beg dt=%sysfunc(mdy(&v_ month,&v day,&v year)); 
Volet dt2—-9?6sysfunc(putn(&beg dt.,yymmdd10.)); 

%put &dt2; 

%let dt3=%sysfunc(compress(&dt2.,-)); 

%put &dt3; 

Volet type-.txt; 

Volet fil- "&pathWata &dt3&type"; 

%put &fil; 

libname jx 'd:jxWest; /* 7E XE d pE*/ 

data jxjiaoyi&v day; /# 刷 卡 交易 一 月 份 数据 所 
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Infile  &fil dlm=' dsd  missover ; 


input id :$4. 
amt 6 
year :$8 


length month $2.; 
month-substr(year,5,2); 

run; 
%mend  filechoice; 
人 # 读 取 20120601 数据 */ 
%filechoice(6,1,2012);/# 调 用 宏 过 程 ， 传 递 实 参 时 间 参 数 v_ month, v day 和 v. year*/ 
人 # 读 取 20120602 数据 */ 
%filechoice(6,2,2012); 
人 # 读 取 20120603 数据 */ 
%filechoice(6,3,2012); 


【程序 解读 】 
1) %macro filechoice(v month,v day,v year): 4E X. v month CH £3). v day (日 )、v_year 
CERO 作为 形 参 。 
2) %let beg dt-9osysfunc(mdy(&v month,&v day,&v year): 生成 SAS 识别 的 SAS 


3) %let dt2=%sysfunc(putn(&beg dt.,yymmddl0.): 处 理 日 期 ， 生 成 yyyy-mm-dd 格式 
日 期 。 

4) %let dt3—96sysfunc(compress(&dt2.,-)): 生成 yyymmdd 格式 的 日 期 。 

5) %let fil- "&pathMata &dt3&type": 拼接 宏 变 量 生成 数据 文件 绝对 路 径 文件 

【 例 6.19】 对 例 6.18 进行 改造 ， 传 递 文 件 路 径 和 文件 类 型 ， 生 成 通用 程序 。 


/* 根据 日 期 取 相 应 路 径 dNxvtest 目录 下 的 数据 文件 */ 
%macro file ty(v path,v type,v month,v day,v year); 
f*v path : 文件 路 径 ，v_type: XFA, v month: HA, v day:H. v year:f£45*/ 
%let path-&v path; /* 7E X P UEOCTERRTE*/ 

%let beg dt=%sysfunc(mdy(&v_ month,&v day,&v year)); 
Volet dt2=%sysfunc(putn(&beg dt.,yymmdd10.)); 
%put &dt2; 
Volet dt3=%sysfunc(compress(&dt2.,-)); 
Voput  &dt3; 
%let type-&v type;/*OC(F2S78*/ 
Volet fil- "&pathWata &dt3&type"; 

Voput &fil; 
libname jx 'd:jxMest; /*XE X9 SR EE / 
data jxjiaoyi&v day; /# 刷 卡 交易 一 月 份 数 据 头 


o 


Infile  &fil dim='|' dsd  missover ; 
input id :$4. 
amt 6 
year $8 
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E 


length month $2.; 
month-substr(year,5,2); 


run; 
%mend 
[* iH 20 


file ty; 
120601 数据 */ 


%file ty(d:yxWest,.txt,6,1,2012); 


EH E 


/*ij 


=j} 


[EH 20 


120602 数据 */ 


宏 过程 ， 传 递 实 参 时 间 参 数 v_path,v_type,v_month,v_day,v_year*/ 


%file ty(d:yxWest,.txt,6,2,2012); 


[iH 20 


120603 数据 */ 


%file ty(d:\jx\test,.txt,6,3,2012); 


【程序 解读 】 


1) %macro file ty(v path,v type,v month,v day,v year): 定义 宏 形 参 , v path : 文件 路 径 ， 


v type: 文件 类 型 


3) %let type=&v_type: 定义 宏 变 量 文 伯 
读 取 同类 文件 


批量 文件 处 理 
数据 存储 在 不 同 的 文件 中 ， 
如 果 通 过 每 一 个 文件 对 应 一 个 SAS AH 
文件 的 效率 和 简便 性 。 为 了 程 
里 批量 数据 。 宏 过 程 更 好 地 实现 了 程序 的 重复 利用 。 
有 一 批 交易 数据 文件 ， 


IB 


6.4 ii 


据 步 处 
【 例 6.20] 


> v month: 


fj. v day: H 
2) %let path-&v path: KEZ v path 外 部 文 伯 


, v year: 年 份 。 


是 对 同一 类 文件 通过 一 个 SAS 程序 进行 处 理 。 实 际 


— 


日 存储 的 数据 


F 路 径 传 递 给 宏 变 量 path. 
F 类 型 ， 宏 形 参 v_type 的 值 赋值 给 此 宏 变 量 。 


结构 相同 


发 中 经 党 
， 只 是 文件 分 散 存 储 。 对 大 量 的 数据 文件 


到 大 量 的 


序 的 重 


* 批 量 外 间 


libname 


数据 文件 处 


里 宏 过 程 ; 
jx "dx" dr m dH 


程序 ， 这 显然 不 符合 开发 需求 ， 也 不 能 提高 读 取 数 据 
复 利用 ， 就 需要 考虑 批量 读 入 数据 文件 ， 然 后 再 通过 数 


这 些 同 类 文件 存储 在 “dxNjxvtest” 目 录 下 ， 请 用 一 个 
SAS 程序 实现 批量 读 取 同 一 类 格式 的 文件 。 


库 */ 


%macro pltras(v filel,v file2,v file3,v type); 


入 定义 宏 
%let 
%let 
%let 
%let 
%let 
%let 
%let 


type-&v type; 
fill= d:jxXest&v | filel; 
fil2 = d: jxMest&v | file2; 
fil3 = d:\jx\test\&v_file3; 
fl= 
n= 
f3= 
filename pl "(&fl,&f2,&f3)"; 


过 程 ， 


&fill &type; 
&fiD&type; 
&fil3&type; 


data jx.transinfor; 


定义 3 "xf 
庶 文 件 格 式 */ 
族 文 件 路 径 */ 


名 参数 和 文件 类 型 参数 ， 传 递 文件 名 和 文件 


POUR GI 


Infile pl truncover dlm='|' 
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PAEA 


lrecl=45 dsd missover; 


类 型 % 


/*dsd 参数 选项 指名 分 隔 符 明 显 ，missowver 指明 缺失 不 履 盖 */ 


length zone 


$4; /*3E X AESRORTRURTHE HE/ 


length name $8 ; 
length mobile $11; 
length address $10 ; 
length credit $10 ; 
input zone $ /* 定 义 读 入 变量 */ 
name $ 
mobile $ 
address $ 
credit $ 


run; 
%mend pltras; 
%pltras(trans1,trans2,trans3,.dat); 


【程序 
1) xis UR filel,v file2,v file3): 定义 宏 过 程 ， 并 定义 3 个 文件 名 参数 和 文件 类 
型 参数 ， 传 递 文件 名 和 文件 类 型 。 


2) %let 
3) %let 
4) filename pl "(&fl,&f2,&f3)": 


物理 路 径 为 &f1、&f2 和 &f3 三 个 变量 的 物理 


= &fill&type; Xl 


fill= d: jxXest&v filel: 


文件 路 径 组 合 ， 
F 组 合 ， 组 合生 成 完整 路 径 名 。 


通过 filename i 


路 径 值 。 


65 ”客户 交易 分 析 输 出 


实际 开发 中 经 党 


数据 集 ， 


别 数据 输出 到 不 同 的 数据 集 。 
【 例 6.21 】 
到 不 同 的 数据 集 。 


为 分 析 处 理 数据 进行 清洗 过 


常 需要 对 数据 文件 i 


行 处 理 ， 


民 据 不 同 的 条 件 


传递 定义 的 形 参 。 


吾 句 定义 批量 文件 组 合 逻 辑 名 pl， 对 应 


取出 不 同 的 数据 生成 到 对 应 


SUE. Select 选择 语句 根据 客户 交易 数据 ， 把 不 同 的 还 球 级 


在 句 应 


Select 选择 i 


* 外 部 数据 文件 处 理 宏 过 程 ; 


libname jx "di:\jx";/* 数 据 集 存储 逻辑 库 */ 


%macro level(v filel,v type); 
%let type-&v type; /文件 格 
%let fill- dAjxW&v filel; /*X 


%let fl = &fill&type; 


filename wj "(&fl)"; 
data jx.hka jx.hkb jx.hkc; 
Infile wj 


truncover dlm='|' 


式 */ 
件 路 径 */ 


户 文件 组 合 */ 


/*filename 定义 逻辑 文件 


]， 根 据 客户 交易 还 


不 款 级 别 ， 


名 */ 


lrecl=50 dsd missover; 


/*dsd 参数 选项 指名 分 隔 符 明 显 ，missowver 指明 缺失 不 覆盖 闷 


把 不 同 的 还 球 级 别 数 据 输 


LL 
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length zone 


length 
length 
length 
length 


input 


E 


select 


name $8 ; 
mobile $11; 
address $10; 
credit $10; 
zone $ AENEA EE 
name $ 
mobile $ 
address $ 
credit $ 
level $1. 


(level); — /55 level 还 款 级 别 字 段 选 择 查 询 */ 
ERIE A 级 另 


when ('A output jx.hka; 
when (B output jx.hkb; 


end; 


run; 


otherwise output jx.hkc; 


%mend level; 


*olevel(hk,.txt);/* V8 HZ ERE, foa oc UE SRUSI 


【程序 解读 】 


/* 条 件 B 


$4; /# 定 义 变量 类 型 和 长 度 头 


| 成立 客 户 信息 输出 到 jx.hka 数据 集 */ 
级 别 成 立 客户 信息 输出 到 jx.hkb 数据 集 */ 


/# 上 面条 件 都 不 成 立 客户 信息 输出 到 jx.hkc 数据 入 


BRA 


mt 
* 
a 


! 实 参 */ 


1) select (level): select 语句 选择 条 件 变量 level 作为 选择 查询 条 件 。 


2) when ('A" output jx.hka: 


jx.hka 数 据 集 。 


Ris voee E 


F, level- 'A' 条 件 成 立 客户 信息 输出 到 


3) when (B output jx.hkb: 根据 选择 查询 条 件 ，level= 'B' 条 件 成 立 客户 信息 输出 到 


jx.hkb 数 据 集 。 


4) otherwise output jx.hkc: 此 还 款 级 别 分 为 3 


息 输 出 到 jx.hkc 数据 集 。 


6.6 ”批量 文件 压缩 


对 于 金融 业 而 言 一 般 SAS 都 是 在 UNIX 环境 下 运行 ， 保 障 了 系统 的 稳定 性 和 效率 。 本 节 


案例 为 UNIX 环境 下 通过 SAS 程序 批量 压缩 UNIX 目录 下 按 日 期 存储 的 数据 文件 。 
【 例 6.22】 批量 压缩 UNIX 环境 下 日 期 为 20120231 一 20120401 这 段 日 期 的 数据 , 文件 路 


iri 


情况 ， 上面 两 种 情况 都 不 成 立时 客户 信 


径 为 /home/test。 文 件 名 格式 为 jy_yyyymmdd.txt。 


options mlogic mprint; 


%macro plzip(); 
%let path-/home/test; /* 文 件 路 径 */ 


%let beg dt-9osysfunc(mdy2,31,2012));/*JT 48 H 
%let end dt-"6sysfunc(mdy(4,01,2012));/*£& 9v H 


%do i-&beg dt. %to  &end dt.;/* 
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期 循环 */ 


期 */ 
期 */ 


Volet v dt- %sysfunc(compress(%sysfunc(putn(&i.,yymmdd10.)),-)); 
证 把 每 次 循环 日 期 赋值 给 变量 v_dt*/ 
%let fil name=]jy_&v_dt.; 


filename zipping pipe "&path./ys.sh &path./test &fil name. &path."; 
PEE 3 个 参数 分 别 给 

Path f-$1 
file fil name-$2 
path tar-$3*/ 

data — null ; 
infile zipping; 
input ; 
put infile ; 

run; 

9 oend; 


%mend; 


%plzip0; 


【程序 解读 】 

1) %let beg_dt=%sysfunc(mdy(2,31,2012)): 定义 数据 文件 开始 日 期 。 

2) %let end_dt=%sysfunc(mdy(4,01,2012)): 定义 数据 文件 结束 日 期 。 

3) %do i-&beg dt. %to &end dt.: 通过 循环 语句 取 日 期 。 

4) %let v_dt= %sysfunc(compress(%sysfunc(putn(&i.,yymmdd10.)),-)): 对 日 期 处 理 ， 去 掉 
日 期 “-” 符 合 ， 把 每 次 循环 日 期 赋值 给 变量 v_dt。 

5) %let fil name=jy_&v_dt.: 文件 名 组 合 ， 生 成 jy_yyyymmddr 格式 的 日 期 文件 名 。 

6) filename zipping pipe "&path./ys.sh &path./test &fil name. &path.": 通过 管道 pipe 执行 
filename 语句 中 调用 ys.sh， 实 现 压缩 功能 。 

UNIX 环境 执行 压缩 SAS 程序 的 SHELL 程序 如 下 : 


# 本 脚本 为 UNIX 下 压缩 文件 脚本 ， 共 需 4 个 参数 
#$1 xls_root 需 压缩 文件 的 路 径 

#92 file nm ” 需 压 缩 文件 的 名 字 

#$3 zip nm ”压缩 包 名 字 

#$4 zip_root 压缩 包 存 放 路 径 


# 定 义 变量 
root f-$1 
file nm-$2 
root tar-$3 

cd $root f 


tar -cvf $file nm.tar $file nm 


compress -f $file nm.tar 


mv .$file nm.tar.Z — $root tar 
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【程序 解读 】 
1) ed $root fcd: UNIX 环境 切换 目录 命令 。 
2) tar -cvf $file nm.tar $file nm: tar -cvf 为 压缩 文件 命令 ， 把 $file nm 压缩 为 
$file nm.tar 格式 文件 。 
3) compress -f $file nm.tar: 压缩 为 .tar 格式 。 
4) mv  /$file nm.ta.Z — $root tar: 通过 mv 命令 移动 压缩 好 的 文件 到 变量 groot tar 的 
Ha. 
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第 7 章 统计 分 析 基 础 与 案例 


7.1 统计 分 析 基 础 


统计 分 析 是 SAS 系统 的 强项 ， 在 国际 上 得 到 了 广泛 的 应 用 ， 尤 其 是 医药 分 析 ， 以 SAS 
统计 分 析 指标 作为 国际 标准 。SAS 系统 把 统计 学 基础 统计 计算 编译 了 很 多 常用 统计 过 程 ， 用 
户 只 需要 知道 每 一 个 统计 过 程 具有 哪些 统计 指标 就 可 以 调用 相应 的 统计 过 程 ， 帮 助 完成 对 现 
实事 物 或 事件 的 统计 分 析 。 


7.1.1 描述 性 统计 过 过 程 概述 


对 事物 的 统计 分 析 一 般 首 先 要 对 数据 进行 描述 性 统计 分 析 ， 以 便于 描述 测量 样本 的 各 种 
特征 及 其 所 代表 的 总 体 的 特征 以 及 发 现 其 数据 的 内 在 规律 ， 再 选择 进一步 分 析 的 方法 。 描 述 
性 统计 分 析 要 对 调查 总 体 所 有 变量 的 有 关 数 据 做 统计 性 描述 ， 主 要 包括 数据 的 频数 分 析 、 数 
据 的 集中 趋势 分 析 、 数 据 的 离散 程度 分 析 、 数 据 的 分 布 及 一 些 基本 的 统计 图 形 。 
描述 性 统计 分 析 是 对 一 组 数据 的 各 种 特征 进行 分 析 ， 以 便于 描述 测量 样本 的 各 种 特征 及 
其 所 代表 的 总 体 的 特征 。 描 述 性 统计 分 析 的 指标 项 目 很 多 ， 常 用 的 有 平均 数 、 标 准 差 、 中 位 
数 、 频 数 分 布 、 正 态 或 偏 态 程度 等 ， 这 些 分 析 是 复杂 统计 分 析 的 基础 。SAS 系统 有 7 种 常用 
上 § 述 性 统计 过 程 ， 所 谓 描述 性 统计 过 程 是 研究 如 何 用 科学 的 方法 去 搜集 、 整 理 、 分 析 经 济 和 
社会 发 展 的 实际 数据 ， 并 通过 统计 所 特有 的 统计 指标 和 指标 体系 ， 表 明 所 研究 的 社会 经 济 现 
象 的 规模 、 水 平 、 速 度 、 比 例 和 效益 ， 以 反映 社会 经 济 现象 发 展 规律 在 一 定时 间 、 地 点 、 条 
牛 下 的 作用 ， 描 述 社 会 经 济 现 象 数量 之 间 的 关系 和 变动 规律 。 

里 解 统计 学 概念 是 应 用 统计 分 析 的 关键 。 常 用 统计 分 析 概 念 指标 如 下 : 

(1) 总 体 和 样本 

总 体 : 根据 研究 目的 确定 的 同 质 的 研究 对 象 的 全 体 ， 更 确切 地 说 ， 是 性 质 相 同 的 所 有 观 
察 单位 某 种 变量 值 的 集合 。 
样本 : 从 总 体 中 随机 抽取 的 有 代表 性 的 一 部 分 。 统 计 分 析 正 是 通过 对 具体 样本 值 的 分 析 、 
研究 ， 从 而 正确 地 推断 出 总 体 所 具有 的 特性 。 这 也 正 是 统计 的 重要 任务 之 一 。 正 因为 如 此 ， 
对 样本 的 来 源 有 一 定 的 要 求 ， 有 具体 方法 称 为 抽样 研究 。 

(QD 置信 度 、 置 信 水 平和 置信 区 间 

置信 和 度 : 置信 度 也 叫 置 信 水 平 ， 根 据 来 自 母 体 的 一 组 子 样 〈 即 观测 值 )， 对 表征 母体 的 参 
数 进行 估计 的 统计 可 信 程 度 。 它 是 指 特定 个 体 对 待 特定 命题 真实 性 相信 的 程度 。 概 率 的 置信 
度 解 释 表 明 ， 事 件 本 身 并 没有 什么 概率 ， 事 件 之 所 以 指派 有 概率 只 是 指派 概率 的 人 头脑 中 所 
具有 的 信念 证 据 。 

置信 水 平 : 总 体 参 数值 落 在 样本 统计 值 某 一 区 内 的 概率 。 

置信 区 间 : 在 某 一 置信 水 平 下 ， 样 本 统计 值 与 总 体 参 数值 间 的 误差 范围 。 置 信 区 间 越 大 ， 
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置信 水 平 越 高 。 
(3) 偏 度 和 峰 度 


HE. 
统计 上 采 


偏 度 是 指 次 数 分 布 非 对 
Mi 


局 度 和 峰 度 是 对 形状 测量 的 统计 量 。 


FRR 


峰 度 : 
E, $% UEST H 


所 谓 峰 度 是 指 次 数 分 布 


线 为 标准 。 根 据 变 量 值 的 集 


曲线 顶 


尖顶 峰 度 、 平 顶峰 度 和 标准 


i 态 方向 程度 。 为 了 精确 测定 次 数 分 布 的 偏 斜 状况 ， 
i 斜 度 指标 ， 描 述 测量 值 是 否 对 称 地 分 布 在 中 心 的 两 人 出 ， 分 为 正 偏 态 和 负 偏 态 。 
条 的 尖 平 程度 ， 是 次 数 分 布 的 又 一 重要 特征 。 统 计 
FP 与 分 散 程 度 ， 峰 度 一 般 可 表现 为 3 种 形态 : 
峰 度 。 变 量 值 的 次 数 在 众 数 周围 分 布 比较 集中 ， 


使 次 数 分 布 曲线 


比 正 态 分 布 曲线 顶峰 更 为 隆起 尖 峭 ， 称 为 尖 项 峰 度 ; 变量 值 的 次 数 在 众 数 周围 分 布 较为 分 散 ， 


使 次 数 分 布 曲线 较 正 态 分 布 曲线 更 为 平缓 ， 称 为 平 顶 峰 度 。 可 见 ， 尖 顶峰 度 或 平 顶 峰 度 都 是 
线 的 标准 峰 度 而 言 的 。 


相对 正 态 分 布 曲 


描述 性 统计 分 析 主 要 分 为 集中 趋势 、 离 散 趋势 和 探索 分 析 。 


(1) 集中 趋势 分 析 


集中 趋势 分 析 : 统计 学 中 研究 
心 点 的 位 置 所 在 。 常 用 度量 方法 如 下 。 


均值 (mean): 表示 一 系列 数 志 


中 位 数 (median): 将 总 体 单位 的 某 一 数量 标志 的 各 个 数值 按照 大 小 顺 


位 置 的 那个 数值 就 是 中 位 数 。 


或 统计 总 体 的 平均 特 条 


FE 的 值 。 


组 数据 向 茶 一 中 心 值 靠拢 的 程度 ， 它 反映 了 一 组 数据 中 


这 排列 ， 居 于 中 间 


众 数 (mode): 变量 数列 中 出 现 次 数 最 多 或 频率 最 高 的 变量 值 。 


衡量 统计 数据 指标 用 众 数 更 能 体现 整体 的 特性 。 


(2) 离散 趋势 


般 值 的 偏差 比较 大 时 ， 


离散 趋势 的 各 测度 值 是 对 数据 离散 程度 所 做 的 描述 , 反映 各 变量 值 远离 其 中 心 值 的 程度 ， 


因 
如 下 。 


全 距 : 


组 变量 值 的 最 大 值 与 最 小 值 之 差 。 
平均 差 : 平均 差 是 总 体 各 单位 标志 值 对 
四 分 位 差 : 四 分 位 差 是 四 分 位 数 中 间 两 个 分 位 之 差 。 


标准 差 : 总 体 各 单位 标志 值 对 
方差 或 均 方 根 差 。 
方差 : 标准 差 的 平方 。 
变异 系数 :标准 差 与 平均 数 的 
称 为 离散 系数 ， 记 为 C.V。 


此 也 称 为 离 中 趋势 。 它 从 另 一 个 侧面 说 明了 集中 趋势 测度 值 的 代表 程度 。 常 用 测量 指标 


其 算术 平均 数 的 离 差 绝 对 值 的 算术 平均 数 。 
其 算术 平均 数 离 差 平方 的 算术 平均 数 的 平方 根 ， 又 称 为 均 
比值 ， 是 衡量 资料 中 各 观测 值 变异 程度 的 另 一 个 统计 量 又 


自由 度 : 样本 中 可 以 自由 变动 的 变量 个 数 。 如 果 有 约束 条 件 ， 


本 数据 受 约束 条 件 的 个 数 ， 记 为 df。 


(3) 探索 分 析 
探索 分 析 是 对 变量 分 布 进 
要 考虑 的 。 


SAS 系统 以 统计 分 析 应 用 最 为 广泛 ， 也 是 SAS 系统 的 核心 。SAS 系统 常 


标 如 表 7-1 所 示 。 
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度 为 样本 个 数 减 去 样 


行 分 析 ， 了 人 解 变 量 分 布 ， 把 握 变量 状态 ， 


也 是 统计 分 析 需 


j 统 计量 关键 指 


表 7-1 SAS 系统 常用 统计 量 关键 指标 
常用 统计 量 关 键 指标 说 — 8j 
MAX 取出 一 组 数据 的 最 大 值 
MIN 取出 一 组 数据 的 最 小 值 
N 非 缺 项 观测 记录 条 数 
NMISS 缺 项 观测 记录 条 数 
RANGE 全 距 ， 为 最 大 值 与 最 小 值 之 差 (MAX-MIN) 
SUM 求 和 
MEAN 算术 平均 值 
CSS 均值 校正 的 平方 和 
USS 未 校正 的 平方 和 
VAR 方差 
STD 标准 差 
STDERR 匀 值 的 标准 差 
CV 变异 系数 
SKEWNESS 偏 度 
KURTOSIS ERE 
T 对 HO: 总 体 均值 =0 的 student t 值 
PRT 自由 度 df X n-1 的 student t 值 的 双 尾 P 值 ， 为 概率 值 
NEDIN a ao An 为 奇数 时 为 中 间 值 ， 当 n 为 偶数 时 为 两 中 间 
QUARTILE 上 下 四 分 位 数 的 值 
MODE 众 数 ， 出 现 频率 最 多 的 值 
LCML 可 信 区 间 下 限 
UCML 可 信 区 间 上 限 
ALPHA 置信 水 平 ， 默 认 值 为 0.05 
SAS 分 析 系 统 常 用 描述 性 统计 过 程 如 表 7-2 所 示 。 
表 7-2 常用 描述 性 统计 过 程 
描述 性 统计 过 程 名 功能 说 明 
MEANS 提供 一 个 数据 汇总 统计 ， 用 以 对 全 体 观测 或 分 组 观测 进行 描述 性 统计 
= PUE HE n 维 的 频数 表 和 列 联 表 ， 对 于 二 维 表 还 计算 统计 量 并 进行 检验 ， 对 于 维 表 则 作 分 层 
分 析 并 在 层 内 计算 统计 量 
GINE 对 数值 变量 进行 详细 的 描述 性 统计 ， 除 了 提供 MEANS 过 程 所 提供 的 统计 描述 之 外 ， 还 提供 变量 
的 偏 度 、 峰 度 、 众 数 、 中 位 数 及 其 他 的 分 位 数 等 统计 特征 数 
TABULATE 报表 过 程 ， 报 表 方式 输出 统计 关键 字 
PLOT 绘制 散 点 图 
G3D 绘制 三 维 的 曲面 图 。G3D 过 程 中 使 用 的 语句 与 PLOT 过 程 大 体 相同 
GPLOT 绘制 连续 的 曲线 图 
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7.1.2 ”描述 性 统计 过 程 应 用 


为 便于 理解 描述 性 统计 过 程 实际 的 业界 应 用 ， 本 节 通 过 案例 进行 讲解 。 
(1) MEANS 过 程 


MEANS 过 程 对 数值 变量 进行 简单 的 描述 性 统计 。 
【语法 格式 】 


i 


上 


PROC . MEANS [选择 项 ]; 
VAR 变量 表 ; 
BY 变量 表 ; 
CLASS FXK; 
FREQ ”变量 
OUTPUT [选择 项 ]; 
RUN; 


【语法 解读 】 

1) [选择 项 ]: 为 可 选项 ， 常 用 选项 如 下 。 

Data=: 指定 SAS 数据 集 。 

noprint: 不 打印 输出 到 输出 窗口 。 

Maxdec=: 指定 输出 结果 的 最 大 小 数位 数 ， 范 围 为 [0,8]， 为 正 整数 ， 默 认为 2。 

可 以 指定 统计 量 , 常用 统计 量 有 MAX、MIN、 SUM、 RANGE、 CLM、 CV、 CSS、 LCLM.、 
N、MEAN、NMISS、STD、UCLM、VAR、SKEW、STDERR、SUMWGT、USS、PRT、T。 

2) VAR: VAR 语句 指定 计算 简单 描述 统计 量 的 数值 变量 及 次 序 。 省 略 此 项 时 ， 输 入 数 
HERR BY, CLASS. ID. FREQ 和 WEIGHT 语句 中 列 出 的 变量 之 外 所 有 数值 变量 依次 都 
分 别 计算 。 

3) BY: BY 语句 指定 分 组 变量 ， 组 内 排序 后 再 进行 统计 分 析 。 

4) CLASS: CLASS 语句 与 BY 语句 功能 相似 ， 只 是 不 需要 按 指定 变量 排序 。 

5) FREQ: FREQ 语句 指定 频数 分 析 变 量 。 
6) OUTPUT: OUTPUT 语句 指定 输出 分 析 结 果 到 数据 集 。 


【 例 7.1】 调查 某 个 地 区 50 个 人 的 年 收入 情况 ， 求 出 年 收入 最 小 值 、 最 大 值 、 均 值 
和 全 距 。 


* 对 外 部 数据 处 理 ; 

%let path= D:\Yjx\sr;。/* 定 义 外 部 文件 路 径 */ 

%let type=.txt; 

%let fil="&path&type"; 

libname jx'd:jx" 定义 逻辑 库 */ 

data jxsr; /* 数 据 集 存储 到 指定 逻 辑 库 */ 
Infile &fil ; 

input id :$4. 


year money 
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proc means data=jx.sr min max mean range; 
/# 统 计 关键 字 min. max. mean 和 range*/ 

Var year money; /# 指 定 分 析 变量 #/ 
run; 


程序 执行 后 输出 窗口 显示 如 图 7-1 所 示 。 


Bi duh - 无 标题 ) 


MEANS PROCEDURE 
分 析 变 量 : year money 


图 7-1 某 地 区 MEANS 过 程 统 计 分 析 


【程序 解读 】 
1) PROC means data-jx.sr min max mean range: 调用 MEANS 过 程 ， 指 定 统 计 关 键 字 
MIN. MAX. MEAN 和 RANGE 分 别 统计 分 析出 年 收入 最 小 值 、 最 大 值 、 平 均值 和 全 距 。 
2) var year money: 指定 分 析 变 量 为 年 收入 变量 year money。 
【分 析 解 读 】 根据 MEANS 过 程 统 计 分 析 输 出 可 以 看 出 某 地 区 调查 50 个 人 ， 其 中 年 收入 
最 低 为 11000， 最 高 为 1900000， 平 均 年 收入 为 51537.82， 全 距 为 1889000。 可 以 看 出 此 调查 
数据 中 全 距 比 较 大 ， 用 年 收入 均值 不 能 反映 出 某 地 区 的 年 收入 均值 ， 应 用 众 数 最 好 。 
(2) FREQ 过 程 
FREQ 过 程 产生 一 维 至 n 维 的 频数 表 和 列 联 表 ， 对 二 维 表 计 算 统计 量 并 进行 检验 ， 对 mn 维 表 
则 作 分 层 分 析 并 在 层 内 计算 统计 量 。 通 过 FREQ 过 程 可 以 帮助 分 析 变 量 值 在 数据 中 如 何 分 布 。 
【语法 格式 】 
PROC FREQ [选择 项 ] ; 
BY 变量 表 ; 
TABLES ” 表 式 /选择 项 ，; 
WEIGHT ” 变量; 
OUTPUT [选择 项 ]; 
RUN; 
【语法 解读 】 
D [选择 项 ]: 为 可 选项 ， 常 用 选项 如 下 。 
Data=: 指定 SAS 数据 集 。 用 来 说 明 要 做 FREQ 的 数据 集 名 ， 如 果 省 略 这 一 项 ， 则 指定 最 
ORDER-FREQ|DATA|INTERNAL|FORMATTED: 此 选项 规定 变量 水 平 的 记录 排列 次 序 。 
ORDER=FREQ 表示 按 频 数 下 降 的 次 序 排列 ， 最 大 的 频数 的 水 平 第 一 个 出 现 ; ORDER=DATA 
表示 按 输 入 数据 集中 出 现 的 次 序 排列 ，ORDER=INTERNAL 表示 按 非 格 式 化 值 的 次 序 排列 ; 
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ORDER-FORMATTED 表示 按 格式 化 值 的 次 序 ， 默 认 时 为 ORDER=INTERNAL。 
FORMCHAR(1,2,7)=’formachar-string”〈 字 符 串 ): 规定 构造 列 联 表 单元 的 轮廓 线 和 分 隔 线 
的 字符 ， 字 符 串 长 度 为 3 个 字符 长 ，1 表示 垂直 线 ，2 表示 水 平 线 ，7 表示 水 平 与 垂直 的 交叉 
线 。 如 FORMCHAR(L2,)- * “(三 个 空格 )， 生 成 表格 没有 轮廓 线 和 分 隔 线 。 
PAGE: 此 选项 要 求 每 页 只 输出 一 张 表 。 
NOPRINT: 不 打印 输出 到 输出 窗口 。 
2) BY: 指定 分 组 变量 。 
3) TABLE: 作 二 维 的 列 联 表 分 析 时 ， 可 使 用 TABLES 语句 。 
4) WEIGHT: 指定 权重 变量 。 
5) OUTPUT: 指定 输出 结果 到 数据 集 。 
【 例 7.2】 根据 地 区 分 析 刷 卡 交 易 年 违约 情况 。 


* 对 外 部 数据 处 理 ; 

%let path- D:jxweiyue; ”定义 外 部 文件 路 径 */ 

Volet type-.txt; 

Volet fil- "&path&type"; 

libname jx'dAXx; /*xE OE f Eg*/ 

data jx.weiyue; ”/* 数 据 集 存储 到 指定 逻辑 库 */ 
Infile &fildlm='|' dsd missover; 


input diqu :$4. 
year :4. 
times 25: 


Description :$30. 
run; 
* 各 区 属 各 年 伤害 信用 违约 次 数 ; 
proc freq data=jx.weiyue formchar(1,2,7)="|-+'; 


table year*times/ nopct ; 
run; 
程序 执行 后 输出 窗口 显示 如 图 7-2 所 示 。 
Eid - (无 标题 ) 


FREQ PROCEDURE 


表 - year * times 
year times 
频数 
行 日 分 比 
列 自 分 比 132] 1351 1581 178] 


7-2. 刷卡 违约 情况 分 析 
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【程序 解读 】 

1) proc freq data-jx.weiyue formchar(1,2,7)='|-+: 调用 FREQ 过 程 ，DATA=jx.weiyue 指定 
分 析 数 据 集 ，formchar(1,2,7)|-+ 指 定 垂 直线 为 ， 水 平 线 为 -， 水 平 与 垂直 的 交叉 线 为 +。 

2) table year*times/ nopct: table 语句 指定 绘制 二 维 列 联 表 ，year 为 行 ，times 为 列 ，nopct 
求 百 分 比 。 

(3) UNIVARIATE 过 程 

UNIVARIATE 过 程 的 作用 是 对 数值 变量 进行 详细 的 描述 性 统计 ， 除 了 提供 MEANS 过 程 
所 提供 的 统计 描述 之 外 ， 还 提供 变量 的 偏 度 、 峰 度 、 众 数 、 中 位 数 及 其 他 的 分 位 数 等 统计 特 
征 数 


N 


【语法 格式 】 

PROC ”UNIVARIATE [选择 项 ]; 

VAR 变量 表 ; 

BY 变量 表 ; 

FREQ — 4F&; 

WEIGHT ”变量 ; 

ID 变量 表 ; 

OUTPUT [选择 项 ]; 

RUN; 
【语法 解读 】 
[选择 项 ]: 为 可 选项 ， 常 用 选项 如 下 。 
1) data=: 指定 SAS 数据 集 ， 如 果 省 略 这 一 项 ， 则 指定 最 新 建立 的 数据 
2) noprint: 不 打印 输出 到 输出 窗口 。 
3) Varde 全 dflweightlwgtlnlwdf: 方差 计算 中 规定 除数 ，df 表示 除数 使 用 自由 度 (n-1)， 
为 默认 值 。weightlwgt 表示 用 权 数 和 作为 除数 。n 表示 观测 个 体 数 〈 样 本 含量 ) 做 除数 。wdf 
表示 用 权 数 和 减 1 做 除数 。 
4) Freq: 要 求生 产 包 含 变量 值 、 频 数 、 百 分 数 和 累计 频数 的 频数 表 。 
5) Normal: 要 求 计算 关于 输入 数据 服从 正 态 分 布 的 假设 的 检验 统计 量 。 
6) plot: 生成 共 叶 网 ， 一 个 盒 形 图 和 一 个 正 态 概率 网 。 
7) Pctlde£-: 规定 计算 百 分 位 数 方法 ， 取 值 为 1、2、3、4 和 5。 
8) Round=: 指定 变量 数值 四 舍 五 入 的 单位 。 
【 例 7.3】 对 例 7.1 进行 改造 ， 通 过 UNIVARIATE 分 析 。 

* 对 外 部 数据 处 理 ; 

%let path= D:\jx\sr; /定义 外 部 文件 路 径 */ 

Volet type-.txt; 

Volet fil- "&path&type"; 

libname jx 'd:jx; /* 7E XP 48IE*/ 

data jxsr; 人 # 数 据 集 存 储 到 指定 逻辑 库 %/ 

Infile &fil ; 
input id :$4. 


year_money 


mr 
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run; 

proc print data-jx.sr; 

run; 

proc univariate data-jx.sr freq normal plot; 
var year money; ” 放 指 定 分 析 变 量 */ 


run; 
Ei 2c LM "à tem k7 mper 
程序 执行 后 输出 窗口 部 分 截图 显示 如 图 7-3 所 示 。 
Bà 输出 - (无 标题 ) = [EX 
SAS XE 2012:E06H 20H E 网 
UNIVARIATE PROCEDURE | 
变 year money 
" | 
50 RESM 50 
均值 51537.82 ”观测 总 和 2576891 l Bih - (无 标题 ) 
标准 差 266752.788 DÆ 7.11571E10 3 
zm ES CERAN EEE 分 位 数 ( 定义 5) 
变异 系数 517.58648 标准 误差 均值 。 37724.5411 | qe y 
分 位 数 估计 值 
基本 统计 测度 | 
E 1008. 最 大 值 1900000 
位 置 变异 性 393 1300000 
T MET. lj 
M 四 
Ad 12100.00 f: 1889000 $0 14700 
四 分 位 极 差 2100 13450 
注意 : 显示 的 众 数 是 3 个 众 数 中 最 小 的 众 数 ,其 计数 为 3。 540 EH 
12050 
位 置 检验 : Mu0=0 11000 
检验 HiE--  ------- P 值 ------- 
Student t — t 1.386162 — Pr» |t| — 0.1781 
Wim Yo an ed] con 
"ep . | BE ad . 
最 小 值 ---- 
正 态 性 检验 iB 观测 
检验 = Pan sida 
Shapiro-Milk W — 0.128453. — Pr«W — «0.0001 12000 18020 
Kolmogorov-Smirnov — D 0.528542 Pr >D «0.0100 12050 18020 
Üramer-von Mises W-Sq 3.96155 Pr > W-Sq «0.0050 12100 19000 
Anderson-Darl ing A-Sq 18.60546 Pr > À-Sq «0.0050 1900000 
图 
< ü z TT = | 3| .-: 
过 程 输出 《基本 分 析 信息 ) 


Bi - (无 标题 ) 


SAS 
UNIVARIATE PROCEDURE 
: year money 
直方 图 # 盒 形 图 正 态 概率 图 
19500004 1 * 19500004 
HR 
HH 
TT | *--ü--* 50000+ k kak dakkika k k 
--ME-IE---ER-lI-4---- t----4----4----4----4----4----4----4---- 4- 
# 最 多 可 代表 2 个 计数 -2 -1 0 +H 


过 程 输出 (直方 图 和 正 态 概念 图 》 
7-3 
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【程序 解读 】 

1) PROC univariate data=jx.sr freq normal plot: 调用 UNIVARIATE 过 程 ， 对 data= 选 项 指 
定数 据 集 为 jx.sr，freq normal plot 分 别 表示 求 频数 、 正 态 分 别 和 绘制 直方 图 、 盒 形 图 和 正 态 概 

2) var year money: 指定 分 析 变 量 为 年 收入 year money。 

(4) TABULATE 过 程 

TABULATE 过 程 是 一 个 报表 过 程 ， 以 报表 方式 输 
行 和 项 。 

个 最 简单 的 PROC TABULATE 过 程 必须 定义 下 列 三 要 素 ; 

1) 类 变量 一 一 可 以 是 数值 型 变量 或 字符 型 变量 。 分 类 的 目的 是 为 了 在 每 一 个 类 上 进行 计 
算 和 分 析 。 
2) 分 析 变 量 定 是 数值 型 变量 。 可 以 计算 的 一 些 统计 量 如 : M FREQUENCY), 
均值 (MEAN), RÈ% (STANDARD DEVIATION )、 最 小 值 (MINIMUM), RAK 
(MAXIMUM)、 极 差 (RANGE)、 总 和 (SUM)、 百 分 数 (PERCENTAGES) 等 。 

3) 表 的 结构 和 格式 一 一 最 多 可 以 定义 3 个 维度 : 第 一 维 定义 列 ， 第 二 维 定 义 行 ， 第 三 维 
定义 项 ,并 且 可 以 通过 TABLE 语句 中 的 表达 式 计算 统计 量 , 用 操作 符 ( 如 逗号 、 空 格 、 星 号 、 
圆 括号 等 ) 来 组 织 单元 集合 。 男 外 ， 还 能 格式 化 单元 中 的 数据 值 和 产生 用 户 化 的 行 标 题 和 列 


述 性 统计 量 。 报表 最 多 为 三 维 : 列 、 


Lt 


标题 。 
【语法 格式 】 
PROC TABULATE < 选项 列表 > ; 
CLASS 分 类 变量 列表 ; 
VAR 分 析 变 量 列表 ; 
TABLE << 页 表达 式 ，> 行 表达 式 ，> 列 表达 式 </ 表 选项 > ; 
LABEL 变量 1=“ 标 签 * 内 容 ” 变量 2=“ 标 签 * 内 容 ”…… 
KEYLABEL 统计 量 名 字 1=“ 标 记 1” 统计 量 名 字 2=“ 标 记 2”……: 
FORMAT ” 变量 输出 格式 ; 
WHERE 条 件 表达 式 ; 
Run ; 
【语法 解读 】 


D < 选项 列表 >: 为 可 选项 ， 常 用 选项 如 下 。 

data=: 指定 SAS 数据 集 ， 如 果 省 略 这 一 项 ， 则 指定 最 新 建立 的 数据 集 

missing: 此 选项 要 求 把 缺失 值 作为 分 类 变量 的 有 效 水 平 。 

Vardef=dflweightlwgtlnlwdf: 规定 用 于 计算 方差 的 除数 。 

Format= 格 式 名 : 指定 每 个 报表 单元 默认 的 输出 格式 。 

ORDER=FREQIDATAIINTERNALIFORMATTED: 此 选项 规定 报表 中 分 类 变量 值 出 现 的 
次 序 ， 如 省 略 该 项 ， 按 内 部 值 的 次 序 。 

FORMCHAR(index-list)-" string: 规定 构造 报表 轮廓 线 和 分 隔 线 的 字符 。 如 FORMCHAR 
G4101D)= **--- ”(3 个 空格 )， 生 成 的 表格 没有 轮廓 线 和 分 隔 线 。 

noseps: 要 求 在 表 体 中 不 出 现 水 平分 隔 线 。 

2) CLASS: 指明 输入 数据 集中 哪些 变量 作为 分 类 变量 。 


A 
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3) VAR: 指明 输入 数据 集中 哪些 变量 作为 分 析 变 量 。 
4) TABLE: 指明 绘制 表格 表达 式 。 
5) LABEL: 对 分 类 变量 或 分 析 变 量 指定 标签 文字 。 
6) KEYLABEL: 与 LABEL 语句 差不多 ， 是 对 统计 量 给 予 指定 标签 描述 。 
7) FORMAT: 对 分 类 变量 指定 输出 显示 格式 。 
8) WHERE: 指定 对 数据 集 处 理 的 过 滤 条 件 。 
【 例 7.4】 通过 TABULATE 过 程 分 析 消 费 支出 调查 数据 。 

* 对 外 部 数据 处 理 ; 

%let path- D:jxwiaofei; 必定 义 外 部 文件 路 径 */ 

Volet type-.txt; 

Volet fil- "&path&type"; 

libname jx'd:x; /*xE OE 4RJE*/ 

data jxxiaofei; ” 记 数 据 集 存储 到 指定 逻辑 库 */ 

Infile &fil dim=' dsd missover; 
input id :$4. 


sr 6. 

xiaofei 5; 

education :4. 

Suidian :4. 

run; 

* 消 费 支 出 调查 分 析 ; 

proc tabulate data-jx.xiaofei formchar-'--—|*|--- format=7.2; 
class id; 


var sr xiaofei education suidian; 
table (id all), 
(sr*mean*f-7. xiaofei*MAX education*MIN suidian*MEAN ) /rts=8 ; 
Keylabel MEAN=" 平 均值 ” all=" 月 收入 " ; 
Label suidian=' 月 水 电 花 费 ' ; 
Titlel “消费 支 出 某 月 调查 分 析 ' ; 
Tite2 “年 份 2012'; 


run ; 


程序 执行 后 输入 窗口 显示 如 图 7-4 所 示 。 
【程序 解读 】 

1) formchar='|----+---': 指定 报表 表格 水 平 线 、 分 隔 线 和 交叉 线 。 

2) format-7.2: 指定 数据 输出 显示 格式 。 

3) class id: 指定 按 id 分 类 。 

4) var sr xiaofei education suidian: 指定 分 析 变 量 为 sr、xiaofei、education 和 suidian 。 

5) table (id all),(sr*mean*f-7. xiaofei*MAX education*MIN suidian*MEAN ) /rts-8: 绘制 
表格 ， 根 据 id， 绘 制 all 表示 所 有 ， 求 sr 的 均值 ， 其 他 设置 属性 类 似 。 

6) Keylabel MEAN=" 平 均值 " all=" 月 收入 ": 指定 标签 描述 。 

7) Titlel 和 Title2 指定 标题 。 
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educat- | 月 水 电 
1638 


sr isoreil ion 


aa | Wax | Win | 平均 和 


------ +-------+-------+-------+------- 


MS P 120.00 
+ + + 


图 7-4 


(5) PLOT 过 程 


PLOT 过 程 的 作用 是 绘制 散 点 图 ， 此 过 


在 PROC PLOT i 


消费 支出 分 析 


程 帮助 分 析 数 据 变化 的 趋势 、 数 据 间 的 相关 性 。 


Jas ERA SS ye y 表示 纵 坐 标 、x 表示 横 坐 标 。 一 般 情 况 下 , PLOT 


过 程 用 字符 A 表示 点 ， 两 个 点 重合 时 用 字符 B 表示 ，3 个 点 重合 时 用 字符 C 表示 。 也 可 以 指 


定语 句 表 示 : 


PLOT A*B- ‘“*” (用 * 表 示 点 ) ; 
PLOT Y*X= 变 量 (用 变量 的 值 表示 


在 PLOT 语句 中 可 以 使 用 下 列 选 择 项 : 


1) VAXIS= 数 值 ， 指 定 
2) HAXIS= 数 值 ， 指 定 横 钾 


点 ) ; 


纵 轴 上 的 刻度 标记 。 
上 的 刻度 标记 。 


3) OVERAY， 指 定 将 所 有 的 图 组 合 输出 ， 相 互 重 车 履 盖 。 


【语法 格式 】 


PROC PLOT [选择 项 ]; 
BY XEK; 
PLOT 表 式 /选择 项 ; 


RUN; 


【语法 解读 】 


1) [选择 项 ]: 为 可 选项 。 常 用 选项 如 下 。 


CD data=: 


指 


XE SAS 数据 集 ， 如 果 汀 


赂 这 一 项 ， 则 指定 最 新 建立 的 数据 集 。 


© VTOH= 数 值 ， 指 定 PLOT 过 程 输出 时 纵横 坐标 轴 的 比例 。 
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© VPERCENT= 数 值 :指定 PLOT 过 程 产生 图 表 长 度 所 占 一 页 长 度 的 纵向 百分比 的 分 子 。 
例如 ，VPERCENT=33 指定 PLOT 过 程 在 一 页 上 垂直 输出 3 个 图 ， 每 个 图 各 占 一 页 长 的 1/3; 
VPERCENT=33 0 指定 PLOT 过 程 在 一 页 上 垂直 输出 的 图 仅 占 一 页 长 的 13， 但 这 一 页 只 输出 
这 一 个 图 。 
(à HPERCENT= 数 值 :指定 PLOT 过 程 产生 图 表 宽 度 所 占 一 页 长 度 的 纵向 百分比 的 分 子 ， 
用 法 同 VPERCENT。 
2) BY 变量 表 : 指定 散 点 图 按 BY 语句 指定 变量 次 序 分 类 。 
3) PLOT 表 式 /选择 项 : 指定 绘图 表达 式 。 
【 例 7.5】 对 消费 支出 调查 数据 绘制 散 点 图 。 
* 对 外 部 数据 处 理 ; 
%let path= D:\jx\xiaofei; 放 定 义 外 部 文件 路 径 */ 
Volet type-.txt; 
Volet fil- "&path&type"; 
libname jx'dXjx5 /定义 逻辑 库 */ 
data jxxiaofei; “/* 数 据 集 存储 到 指定 逻辑 库 */ 
Infile &fil dlm-' dsd missover; 


input id :$4. 

sr :6. 
xiaofei m 
Education :4. 
Suidian :4. 

run; 

* 消 费 支 出 调查 分 析 散 点 图 ; 

proc plot data-jx.xiaofei hpercent-80; Bih - (无 标题 ) 


Plot sr*xiaofei-'*'; 


run; 


程序 执行 后 输出 窗口 显示 如 图 7-5 所 示 。 
【程序 解读 】 
1) hpercent-80: 用 来 指定 PLOT 过 程 产生 
图 表 宽 度 所 占 一 页 长 度 的 纵向 百分比 的 分 子 。 
2) plot sr*xiaofei=*':， 指定 纵 轴 为 sr, Ts 
为 xiaofei， 用 * 表 示 点 。 
(6) G3D 过 程 
G3D 过 程 的 作用 是 绘制 三 维 的 曲面 图 ， 
G3D 过 程 中 使 用 的 语句 与 PLOT 过 程 大 体 相同 。 
【语法 格式 】 


PROC G3D [选择 项 ]; 
BY 变量 表 ; 
PLOT 表 式 /选择 项 ; 
RUN; 图 7-5 消费 分 析 散 点 图 
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【 例 7.6】 绘制 y=kx+3 的 图 像 ，x 从 -6 一 6， 以 0.5 递增 , k 从 -6 一 6， 以 0.5 递增 。 


data ex; 

do x=-6 to 6 by 0.5; 
do k--6 to 6 by 0.5; 
y=k*x+3; 
Output; 
end; 

end; 

proc g3d; 

Plot k*x-y; 


run; 


程序 执行 后 图 像 窗口 显示 如 图 7-6 所 示 。 


FW GRAPH1  WOREK.GSEG.G3D 


图 7-6 G3D 过 程 图 形 显示 


(7) GPLOT 过 程 
GPLOT 过 程 的 作用 是 绘制 连续 的 曲线 图 。GPLOT 过 程 中 使 用 的 语句 与 PLOT 过 程 大 体 
相同 ， 用 到 时 可 以 参考 。 
【语法 格式 】 
PROC GPLOT [选择 项 ]; 
BY 变量 表 ; 


PLOT 表 式 /选择 项 ; 
RUN; 


[517.7] 绘制 余弦 图 和 一 元 直线 图 。 


data gplot; 
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do ds-0 to 360; 
y-cos(ds*3.1415926/180); 
k-2*ds/180-2; 

Output; 

end 

symbol i-spline; 

proc gplot; 
plot y*ds k*ds/overlay; 

run; 


程序 执行 后 输出 结果 显示 如 图 7-7 所 示 。 
ix GRAPHI  WORK.GSEG.GPLOTI EIE 


0 100 200 300 400 


图 7-7 余弦 图 


【程序 解读 】 
plot y*ds k*ds/overlay: 分 别 绘制 y 与 ds 的 关系 图 以 及 k 与 ds 的 关系 图 。 


7.2 方差 分 析 基 础 


方差 分 析 (Analysis of Variance; ANOVA ) 又 称 “ 变 异 数 分 析 ” 或 “F 检验 ” Æ R. A. Fisher 
发 明 的 ， 用 于 两 个 及 两 个 以 上 样本 均 数 差别 的 显著 性 检验 。 由 于 各 种 因素 的 影响 ， 研 究 所 得 
的 数据 呈现 波动 状 。 方 差分 析 是 检验 两 个 或 两 个 以 上 样本 均 数 差异 是 否 具有 统计 意义 的 一 种 
7.2.1 方差 分 析 概 述 

方差 分 析 是 从 观测 变量 的 方差 入 手 ， 研 究 诸 多 控制 变量 中 哪些 变量 是 对 观测 变量 有 显著 
影响 的 变量 。 事 物 往往 有 许多 因素 互相 制约 又 互相 依存 ， 方 差分 析 的 目的 是 通过 数据 分 析 找 
出 对 该 事物 有 显著 影响 的 因素 ， 各 因素 之 间 的 交互 作用 ， 以 及 显著 影响 因素 的 最 佳 水 平等 。 
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方差 分 析 是 在 可 比较 的 数组 中 ， 
种 技术 。 对 变 差 的 度 


E. 


量 ， 采 用 离 差 平方 和 。 方 差分 析 方 法 就 是 从 总 离 差 平方 和 分 解 出 可 


B 


到 指定 来 源 的 部 分 离 差 平方 科 。 经 过 方差 分 析 若 拒绝 了 检验 假设 ， 
数 不 相 等 或 不 全 相等 。 若 要 得 到 各 组 均 数 间 更 详细 的 信息 ， 应 在 方差 分 析 的 基 而 


样本 均 数 的 两 两 比较 。 


方差 分 析 
D 各 处 理 条 件 下 的 样本 是 随机 的 。 


2) 各 处 理 条 件 下 的 样本 是 相互 独立 的 ， 否 则 可 能 出 现 无 法 解析 的 输出 结果 。 
3) 各 处 理 条 件 下 的 样本 分 别 来 自 正 态 
4) 各 处 理 条 件 下 的 样本 方差 相同 ， 即 具有 齐 效 性 。 
的 假设 检验 : 
假设 有 个 样本 ， 如 果 原 假设 HO 样本 均 数 都 相同 ，K 个 样本 有 共 


方差 分 析 日 


的 假定 条 件 如 下 : 


分 布 总 体 ， 否 则 使 用 非 参 数 分 析 。 


样本 来 自 共 有 共 
则 推翻 原 假 设 


承认 原 假设 ， 样 


( 


1) 单 因 


， 说 明 样 
本 来 自 相同 总 体 ， 处 开 
素 方差 分 析 


本 来 自 不 同 的 


同方 差 o 和 相同 均 数 的 总 体 。 如 
E 态 总 体 ， 说 明 处 理 


LE 间 无 差异 。 


来 显 
| 答案 
素 方差 分 析 的 第 


单 因 素 方差 分 析 
KE, BFAA 
经 济 指标 带 
差分 析 得 至 
单 因 


著 影 1 


十 
有 个 因 


据 此 ， 


观测 变量 的 方差 。 方 差分 
单 因素 方差 分 书 
两 部 分 , 用 数学 形式 表述 为 SST=SSA+SSE。 单 因 
离 差 平方 和 各 部 分 所 占 的 比例 ， 


素 对 观测 变量 的 影响 ， 
咎 ， 考 查 经 济 差异 是 否 影响 教育 水 平等 。i 


:用 来 研究 一 个 控制 变量 的 不 同 水 平 是 否 对 观测 变量 产 4 


因此 称 为 单 因素 方差 分 析 。 


将 观测 变量 总 的 离 差 平方 和 分 解 为 组 间 离 差 平 方 条 


一 步 是 明确 观测 变量 和 控制 变量 。 单 因素 方差 分 析 的 灸 


》 析 认为 : 观测 变量 值 的 变动 会 受 控制 变量 和 随机 变量 


这 些 问题 都 可 以 通过 


把 数据 间 的 总 的 “ 变 差 ” 按 各 指定 的 变 差 来 源 进行 分 解 的 一 
3B df 
只 能 说 明 多 个 样本 总 体 均 
1 上 进行 多 个 


同 的 方差 G， 则 K 
果 经 过 计算 ， 组 间 均 方 远 远 大 于 组 内 均 方 ， 


造成 均值 的 差异 有 统计 意义 。 和 否则 


例如 ， 分 析 不 同 


单 因 


素 方 


二 步 是 剖析 
两 方面 的 影响 。 


1 和 组 内 离 差 平方 和 


素 方差 分 析 的 第 三 步 是 通过 比较 观测 变量 总 


单 因素 方差 分 析 原 理 : EN 
则 说 明 观 测 变量 的 变动 主要 是 由 控 带 


推断 控制 变量 是 
上 变量 总 离 差 平方 和 中 ,如果 组 间 离 差 平方 和 所 占 比例 较 大 ， 


变量 带 来 了 显著 影响 ; 


cc 


EZ nr 
者 绢 啊 ， 


观测 变 


量 值 


| 变量 起 的 ， 
反之 ， 如 果 组 间 离 差 平方 和 所 占 比例 小 ， 


空 制 变量 引起 的 ， 不 可 以 由 控制 变量 来 解释 ， 


1 


) 出 原 假设 : 
2) 选择 检验 统计 量 : 方差 分 析 采 用 的 检验 统计 量 是 F 统计 量 ， 即 下 值 检 验 。 


的 变动 是 由 随机 变量 因素 引起 的 。 
单 因素 方差 分 析 的 基本 步骤 如 下 。 
H0 一 一 无 差异 ，H1 一 一 有 显著 差异 。 


否 给 观测 变量 带 来 了 显著 


可 以 由 控制 变量 来 解释 ， 


空 制 变量 的 不 同 水 平 没有 给 观测 变量 带 来 显 


影响 。 


空 制 变量 给 观测 


则 说 明 观 测 变量 的 变动 不 


H 
AE 


3) 计算 检验 统计 量 的 观测 值 和 概率 P 值 : 该 步骤 的 目的 就 是 计算 检验 统计 量 的 观测 值 和 
相应 的 概率 P 值 。 

4) 给 定 显著 性 水 平 ， 并 作出 决策 。 

单 因素 方差 分 析 在 完成 上 述 单 因 素 方差 分 析 的 基本 分 析 后 ， 可 得 到 关于 控制 变量 是 否 对 
观测 变量 造成 显著 影响 的 结论 ， 接 下 来 还 应 做 其 他 几 个 重要 分 析 ， 主 要 包括 方差 齐 性 检验 、 
多 重 比较 检验 。 
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显著 影响 。 如 果 控 外 


水 平 对 观测 变量 的 影响 程度 如 何 ， 


QD 方差 齐 性 检验 是 对 控制 变量 不 同 水 平 下 各 观测 变量 总 体 方差 是 否 相 
同 各 水 平 下 观测 变量 总 体 方差 无 显著 差异 是 方差 分 忆 
如 果 没 有 满足 这 个 前 提要 求 ， 就 不 能 认为 各 总 体 分 布 相同 。 因 
进行 检验 。 
D 多 重 比较 检验 单 因 素 方 差分 析 的 基本 分 析 


前 面 提 到 ， 控 制 变量 不 


E 


用 是 不 显著 的 等 。 
检验 统计 量 的 构造 方法 :LSD 方法 和 S-N-K 方法 。 


平 间 的 均值 
仅 使 有 


LSD 方法 称 为 最 小 显著 性 差异 (Least Significant Difference) 法 。 
只 要 存在 一 定 程度 的 微小 差异 就 可 能 被 检验 出 来 。 它 利 
日 某 两 组 的 数据 。LSD 方法 适 
概率 问题 加 以 有 效 控制 。 


H 


EAE f nd 


i— 


上 变量 产 


ER 


实 对 观 涡 


此 ， 有 必要 对 方差 是 否 齐 性 


等 进行 检验 。 
的 前 提要 求 。 


析 控 制 变量 是 否 对 观测 变量 产生 了 


还 应 进一步 确定 


JF 


其 中 哪个 水 平 的 作用 明 


总 体 方差 相等 的 1 


最 小 显 
全 部 观 


况 ， 但 它 并 没有 


区 别 于 其 他 水 平 ， 


控制 变量 的 不 同 
哪个 水 平 的 作 


著 性 差异 法 即 水 
测 变量 值 ， 而 非 
对 犯 一 类 错误 的 


E 


FH 


S-N-K 方法 : S-N-K 方法 是 一 种 有 效 划分 相似 性 子 集 的 方法 。 该 方法 适合 于 各 水 平 观 测 
值 个 数 相等 的 情况 。 

(2) 多 因素 方差 分 析 

多 因素 方差 分 析 用 来 研究 两 个 及 两 个 以 上 控制 变量 是 否 对 观测 变量 产生 显著 影响 。 这 里 ， 
由 于 研究 多 个 因素 对 观测 变量 的 影响 ， 因 此 称 为 多 因素 方差 分 析 。 多 因素 方差 分 析 不 仅 能 够 
分 析 多 个 因素 对 观测 变量 的 独立 影响 ， 更 能 够 分 析 多 个 控制 因素 的 交互 作用 能 否 对 观测 变量 
的 分 布 产 生 显著 影响 ， 进 而 最 终 找 到 利于 观测 变量 的 最 优 组 合 。 

(3) 协 方 差分 析 

协 方差 分 析 是 把 直线 回归 与 方差 分 析 法 结合 起 来 的 一 种 方法 ， 利 用 回归 的 关系 消除 对 比 
各 组 自 变 量 值 不 同 所 产生 的 影响 后 ， 再 进行 方差 分 析 。 

协 方差 分 析 将 那些 人 为 很 难 控制 的 控制 因素 作为 协 变 量 , 并 在 排除 协 变量 对 观测 变量 


Ei 
p 


向 


的 条 件 下 ， 分 析 控 人 
行 评价 。 协 方差 分 析 仍 然 沿 承 方差 分 析 的 基本 
变量 的 影响 。 人 为 观测 变量 的 变动 受 4 个 方面 的 影响 (控制 变量 的 独立 作用 、 


交互 作 月 


的 影响 。 


方差 分 析 中 的 原 假设 是 : 协 变量 对 观 涡 


昌 、 协 变量 的 作用 和 随机 


所 变量 《可 控 ) 对 观测 变量 的 作 


]. Ai 


FH XH 


AN 2A? 


j 更 加 准确 地 对 控制 
并 在 分 析 观 测 变量 变 差 


因素 进 
时 ， 考 虑 了 + 
控制 变量 的 


小 


因素 的 作用 )， 在 扣除 协 变量 的 影响 后 ， 再 分 析 控 制 变量 
1 变量 的 线性 影响 是 不 显著 的 ; 在 协 变量 影响 扣 


除 的 条 件 下 ， 控 制 变量 各 水 平 下 观测 变量 的 总 体 均 值 无 显著 差异 ， 控 制 变量 各 水 平 对 观测 
变量 的 效应 同时 为 零 。 检 验 统 计量 仍 采用 F 统计 量 ， 它 们 是 各 均 方 与 随机 因素 引起 的 
均 方 比 。 


SAS 系统 中 ANOVA 过 程 是 进行 方差 分 析 的 内 部 过 程 ， 此 过 程 是 一 个 交 
行 完 RUN 语句 后 该 过 程 并 没有 结束 。 如 果 想 结束 此 过 程 ， 则 后 画 
【语法 格式 】 
PROC ANOVA < options > ; 


CLASS variables « / option > ; 
MODEL dependents-effects < / options > ; 
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互 方式 执行 ， 执 


必须 使 用 QUIT 语句 。 


BY variables ; 
MEANS effects < /options > ; 
TEST < H=effects > E-effect ; 
MANOVA H=effects E=effects[/option]; 
RUN; 
QUIT; 
【语法 解读 】 
1) CLASS variables < / option >: 指定 分 类 变量 。 
2) MODEL dependents=effects < / options >: 定义 拟 合 模型 ， 因 变量 = 效应 表 [/ 选 择 项 ]。 
3) BY variables: 指定 分 组 变量 表 。 
4) MEANS effects < / options >: 在 MODEL 语句 后 可 以 使 用 多 个 MEANS 语句 ， 计 算 和 
比较 均值 。 
5) TEST < H=effects > E-effect: 方差 分 析 中 利用 其 他 效应 作为 误差 项 ， 指 定 效应 平方 和 
和 误差 项 ， 构 建 检 验 。 
6) MANOVA H-effects E-effects[/option]: 做 多 元 方差 分 析 。H= 效 应 表 ， 指 定 一 个 或 多 
个 需 分 析 的 效应 作为 假设 检验 矩阵 。E= 效 应 ， 指 定 产 生 误 差 项 的 效应 。 缺 项 时 用 剩余 平方 和 、 
交叉 积 和 残 差 矩阵 作为 误差 项 。 


7.2.2 方差 分 析 应 用 


方差 分 析 通 常 应 用 在 自 变 量 与 因 变 量 的 相关 关系 研究 中 ， 是 看 茶 个 因素 对 因 变 量 是 不 是 
有 显著 性 的 影响 ， 主 要 分 析 各 效应 的 显著 性 。 
【 例 7.8】 研究 正常 人 体重 与 非 正常 人 体重 的 差异 ， 数 据 保存 在 dijx\sg_tz.txt 文本 中 。 


* 对 外 部 数据 处 理 ; 
%let path- D:jxWg tz 人 # 定 义 外 部 文件 路 径 头 
%let type-.txt; 

Volet fil- "&path&type"; 

libname jx'dNx; /*xE OE JE */ 

data jxsg tz; /* 数 据 集 存储 到 指定 逻辑 库 */ 
Infile &fil dim=' dsd missover; 


Vet 


input group :1. 
sg 3 
tz :8. 


; 
run; 
[* ii] anova 过 程 分 析 */ 


proc anova data-jx.sg tz; 


class group; 
model tz-group; 


run; 


程序 执行 后 输出 窗口 显示 如 图 7-8 所 示 。 
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Ei 输出 - (无 标题 ) [- [Ex 
The ANDYA Procedure 


Dependent Variable: tz 


Source DF Nod Mean Square F Value Pr» F 
Model 1 1156.000000 1156.000000 12.75 0.0031 
Error 14 1263.750000 30.636423 
Corrected Total 15 2425.750000 

R-Square Coeff Var Root MSE tz Mean 


0.476554 13.32823 3.523467 68.37500 


Source DF Anova SS Mean Square F Value praF 
group 1 1156.000000 1156.000000 12.75 0.0031 


图 7-8 体重 分 析 (一 ) 


【程序 解读 】 
1) class group: 指定 分 组 变量 。 
2) model tz=group: 建立 模型 ， 体 重 = 两 组 之 间 方 差分 析 。 
【分 析 结 果 解 读 】 
看 变量 group [f] F 值 ，F=12.75, P=0.0031<0.01， 可 以 得 出 两 组 体重 有 显著 性 差异 。 
为 了 知道 研究 两 组 之 间 的 差异 是 否 有 意义 ， 需 做 Q 检验 ， 在 上 面 的 程序 运行 后 ， 执 行 如 
下 程序 : 


means group/duncan; 
RUN; 
QUIT; 


程序 执行 后 输出 窗口 显示 如 图 7-9 所 示 。 
Bah- (无 标题 ) 


The ANOYA Procedure 
Duncan's Multiple Range Test for tz 


NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate. 


Alpha 0.05 
Error Degrees of Freedom 14 
Error Mean Square 30.635643 


Number of Means 2 
Critical Range 10.21 


Means with the same letter are not significantly different. 


Duncan Grouping Mean N group 
À 76.875 
B 59.875 


图 7-9 体重 分 析 (二 ) 
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【分 析 结 果 解 读 】 
Error Mean Square 为 误差 均 方 , number of means 和 Critical Range 分 别 表示 比较 的 组 数 和 
它们 之 间 相差 有 无 意义 的 临界 值 。 


7.3 ”相关 分 析 与 回归 分 析 基 础 


相关 分 析 是 太 
机 现象 的 变量 ， 
与 现象 之 间 的 关系 。 


7.3.1 


HEH 
它们 之 间 的 关系 具有 某 种 不 而 


AE M 


相关 分 析 与 回归 分 析 概 述 


1. 相关 分 析 的 概念 


E， 通 过 相关 分 析 与 回 


之 间 相互 关系 的 密切 程度 和 相互 联系 方式 的 重要 方法 。 对 于 描述 随 


bn 


ATTE 


Š 


究 实际 事 


相关 分 析 是 为 了 检验 分 析 变 量 之 间 是 否 存在 某 种 联系 ， 以 及 变量 之 间 联 系 的 密切 程度 ， 
其 联系 的 密切 程度 通过 相关 系数 衡量 。 
相关 的 函数 关系 是 一 种 严格 的 依存 关系 ， 这 种 关系 可 以 用 y=f(x) 来 表现 。 
相关 的 密切 程度 关系 系数 分 为 正 负 号 ， 分 别 表 示 正 相关 和 负 相 关 。 其 R 值 的 取 值 范围 在 
[0,1] 绝 对 值 之 间 。 其 值 的 大 小 反映 两 变量 之 间 相 关 的 密切 程度 ， 如 表 7-3 所 示 。 
表 7-3 变量 之 间 相 关系 数 R 的 强度 说 明 
R 值 相关 强度 
1 完全 正 相 关 
2 完全 负 相 关 
0 完全 不 相关 
0.8 以 上 非常 强 相 关 
0.60 一 0.80 强 相关 
0.40 一 0.60 中 等 相关 
0.20 一 0.40 弱 相 关 
0.20 以 下 非常 弱 相 关 
2. 回归 分 析 的 概念 与 分 类 
回归 分 析 是 对 具有 相关 关系 的 两 个 或 两 个 以 上 变量 之 间 的 数量 依存 关系 进行 测定 ， 确 立 
一 个 相应 的 数学 表达 式 ， 以 便 从 一 个 已 知 量 来 推测 另 一 个 未 知 量 ， 为 估算 预测 提供 一 个 重要 
的 方法 。 通 过 自 变 量 的 变化 预测 因 变 量 的 变化 趋势 。 
回归 的 分 类 : 按 自 变量 的 个 数 分 为 一 元 回归 和 多 元 回归 ， 按 回归 线 的 形状 分 为 线性 回归 
和 非 线性 回归 。 
简单 线性 回归 方程 式 的 一 般 形 式 : y=atbx。 
[3:881 所 分 析 的 两 个 变量 之 间 必 须 存 在 相关 关系 ， 且 相关 程度 在 显 普 相关 以 上 。 当 两 
个 变量 的 增长 比例 为 常数 时 ， 它 们 之 间 就 呈现 为 一 种 简单 线性 关系 。 
对 于 两 变量 相关 的 散 点 图 中 ， 引 出 一 条 最 优 的 直线 ， 这 条 直线 就 是 估计 回归 线 。 它 表明 
了 两 个 变量 数量 变动 的 一 般 关 系 ， 估 计 回 归 方 程 如 下 : 
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Y, =a +bx 


DUE 
y: 因 变 量 估计 值 。 
a: 直线 截 距 。 
b: 直线 的 斜率 ， 又 称 回归 系数 。 
x: 自 变 量 
3. 相关 分 析 过 程 CORR 过 程 

SAS 系统 CORR 过 程 是 研究 变量 之 间 相 关 性 的 过 程 ,通过 此 过 程 看 变量 之 间 的 相关 程度 。 


尤其 是 在 风险 控制 和 医药 行业 经 常用 此 过 程 研究 变量 之 间 的 相关 性 ， 以 便于 发 现 显著 因素 ， 
从 而 控制 某 几 个 变量 。 
【语法 格式 】 


PROC CORR < 选项 >; 
BY 变量 列表 ; 
FREQ ”变量 ; 
PARTIAL 变量 列表 ; 
VAR 变量 列表 ; 

WEIGHT 变量 ; 
WITH 变量 列表 ; 
RUN; 


【语法 解读 】 
1) CORR: 过 程 名 ， 实 现 变 量 相关 程度 分 析 的 SAS 内 部 过 程 。 
2) < 选项 >: 可 选项 。 常 用 选项 如 表 7-4 一 表 7-6 所 示 。 


表 7-4 CORR 过 程 常用 数据 集 选 项 设置 说 明 


选 项 说 3] 
DATA- 指定 要 分 析 的 数据 集 ， 省 略 时 默认 当前 最 新 数据 集 
OUTH= 输出 为 Hoeffding’s D 统计 分 析 输 出 
OUTK= Kendall 相关 统计 分 析 输 出 
OUTP- Pearson ZIRA) 相关 统计 分 析 输 出 
OUTS= Spearman 相关 统计 分 析 输 出 
对 于 CORR 过 程 可 以 对 统计 分 析 设 置 控制 统计 分 析 参 数 选项 ， 如 表 7-5 Bras. 


表 7-5 控制 统计 分 析 参 数 选项 


选 项 说 — 8j 
EXLNPWGT 排除 负数 权重 值 的 观测 记录 
NOMISS 排除 缺失 值 的 观测 记录 
PEARSON 要 求 皮 尔 森 积 矩 相关 
对 于 CORR 过 程 ， 统 计 分 析 过 程 中 可 以 对 分 析 显 示 信 息 进 行 打印 输出 控制 。 控 制 打印 输 


出 选项 说 明 ， 如 表 7-6 所 示 。 
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表 7-6 控制 打印 输出 选项 说 明 


归 可 以 加 入 一 些 选项 参数 。 常 用 的 选项 如 表 7-7 所 示 。 
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选 项 说 明 
BEST- 指定 打印 N 的 高 度 相 关 ，N>=1， 顺 序 从 高 到 低 
NOCORR fli] Pearson 相关 显示 
NOPRINT 巾 制 所 有 显示 输出 ， 只 是 es 
NOPROB 巾 制 每 个 相关 的 概率 性 显示 
NOSIMPLE 由 制 对 每 个 变量 的 简单 描述 统计 的 打印 信息 
RANK 指定 显示 按 排序 的 相关 系数 显示 
3) Pearson (皮尔 森 〉 相关 统计 的 参数 如 下 。 
ALPHA: 计算 ALPHA fH. 
COV: 计算 协 方差 。 
NOMISS: 排除 缺失 值 。 
4) PARTIAL v varl 语句 :对 变量 进行 偏 相关 统计 。 
5) WITH v varl 语句 : 和 VAR 变量 组 合 应 用 ， 用 来 指定 矩阵 的 模 轴 。 
4. 回归 分 析 过 程 REG 过 程 和 LOGISTIC 过 程 
(1) REG 回归 过 程 
REG 回归 过 程 是 SAS 系统 中 的 一 个 比较 通用 的 普通 过 程 ， 不 像 LOGISTIC (逻辑 回归 过 
程 )、NLIN《〈 非 线性 回归 过 程 )》 和 CATMOD (分 类 过 程 ) 等 过 程 具体 适用 于 某 一 类 。REG 过 
程 适用 的 回归 分 析 比 较 通 用 ， 没 有 太 多 限制 。 
【语法 格式 】 
PROC REG < XJ; 
«]abel: > MODEL dependents=<regressors> < / options > ; 
BY v variable ; 
FREQ cv variable ; 
ID v variables ; 
VAR v variables ; 
WEIGHT v variable ; 
ADD cv variable ; 
DELETE v variable; 
< label: > MTEST «equation, ... equation? < / options > ; 
OUTPUT < OUT-SAS-data-set > keyword-names 
€ ... keyword-names > ; 
PLOT «y variable*x variable» <=symbol> 
< ...yvariable*xvariable» <=symbol> < / options > ; 
< label: > TEST equation, ...,equation? < / option > ; 
RUN; 
【语法 解读 】 
1) REG: REG 回归 过 程 的 调用 ， 是 一 个 普遍 应 用 的 回归 过 程 。 
2) REG El! 


3) 党 


< abel: > MODEL dependents=<regressors> < / options >: «label: > 为 可 选项 ， 为 模型 指 
变量 ， 这 是 对 分 析 数 据 集 建立 模型 时 指定 五 


定 标号 ; dependents=<regressors> 指 定 因 


表 7-7 REG 过 程 常用 选项 说 明 
选 项 yi Hj 
DATA- KEERI RE. ERWOBUS SU Scy s e 
GUTES 指定 回归 分 析 中 包含 参数 估计 和 模型 的 一 些 统计 信息 的 数据 集 名 , 也 就 是 把 
包含 参数 估计 和 模型 统计 的 一 些 信 息 存 储 到 此 处 指定 的 数据 集 保存 
间 定 一 个 数据 集 的 名 字 ， 存 储 SCP 类 型 的 相关 和 抑 阵 的 分 析 信息 ， 包 含 如 平 
OUTSSCP- 方 和 和 变量 交叉 等 分 析 信息 。 对 于 大 数据 量 的 分 析 ,， 可 以 把 此 类 结果 存储 到 指 
定数 据 集 保存 分 析 信息 ， 以 方便 分 析 再 利用 ， 而 不 是 输出 到 输出 窗 
选项 参数 是 在 有 OUTEST= 选 项 时 才 可 以 应 用 ， 把 参数 估计 的 协 方差 矩阵 
ST 输出 到 此 数据 集 
OUTSTB 选项 参数 是 输出 标准 的 参数 估计 信息 到 OUTEST= 选 项 所 指定 的 数据 集中 
CORR 对 MODEL 语句 或 VAR 语句 声明 的 变量 显示 所 列举 变量 的 相关 系数 矩阵 
选项 对 MODEL 语句 或 VAR 语句 指定 的 变量 显示 基本 的 统计 信息 ， 如 均 
值 、 方 差 和 标准 差 等 
USCCP 显示 未 修正 平方 和 或 交叉 矩阵 
ALL 选项 表示 显示 所 有 的 统计 信息 
NOPRINT 对 分 析 结 果 不 输 出 到 输出 窗 


过 程 语句 说 明 如 下 。 


究 变 量 与 变量 之 间 的 关系 模型 。 


< label: > MTEST «equation, … ,equation> < / options >: 自 定义 回 


等 式 之 间 以 逗号 分 隔 。 


OUTPUT < OU 


变量 = 自 


定 把 回归 分 析 的 分 析 结 果 存 储 到 指定 的 数据 集 ，OUT= 指 定 存 储 到 的 数据 集 名 字 ; 
keyword=names 指定 分 析 输 出 到 指定 数据 集 的 关键 分 析 指 标 。 
< label: > TEST equation,<, ...,equation» </ option >: 和 MTEST 语句 用 法 一 样 。 
PLOT «y variable*x variable» <=symbol> < ...yvariable*xvariable> <=symbol> < / options >: 


PLOT 语句 指定 
<y_variable*x_variable> 指 
符号 。 可 以 绘制 多 个 散 点 
(2) LOGISTIC 逻辑 回 
LOGISTIC 逻辑 回归 过 程 是 一 个 二 值 响应 


和 1 或 次 序 变量 的 关系 。LOGISTIC 回归 属于 一 种 特殊 的 回归 过 程 ， 


Z] 


绘制 散 点 


， 所 取 的 绘图 变量 


定 绘图 的 了 负 


变量 和 X 轴 变 量 ; 


图 形 。 
归 过 程 


口 


m 


HER, 


如 果 此 事件 分 析 变 量具 有 二 值 类 型 ， 只 
行 分 析 。 数 据 挖 掘 中 二 

LOGISTIC 逻辑 
二 值 类 型 的 可 以 选择 此 


值 事件 的 


情况 经 


有 两 种 结果 


常用 到 逻辑 


回 


Het 


归 方 式 。 


H 


语法 格式 :PROC LOGISTIC < 选项 >: 
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BY v variables; 


需要 从 MODEL 语句 或 VAR 语句 中 选择 ; 


假设 的 等 式 ， 多 个 


T=SAS-data-set > keyword=names < ... keyword-names >: OUTPUT 语句 指 


E) 


<=symbol> 指 定 图 


就 是 分 析 的 变量 分 类 只 


o 


来 做 二 值 响 应 模型 的 分 析 ， 是 一 种 特殊 的 回 


CLASS v variable <(v-options)> «v variable <(v-options)>...> 


< / v-options >; 
FREQ v variable; 


形 绘 


HJ NR S 


BI PS 


有 两 个 值 0 
用 时 要 根据 需求 来 定 。 
， 就 可 以 选择 LOGISTIC 逻辑 回归 模型 进 
EJJA 


过 程 。 事 件 为 


MODEL events/trials = < effects > < / options >; 
MODEL v variable < (variable options) > = < effects > < / options >; 
OUTPUT < OUT-SAS-data-set > < keyword-name...keyword-name > / 


< option >; 
< label: > TEST equationl <, ..., < equationk >> < /option >; 
WEIGHT v_variable </ option >; 


RUN; 


【语法 解读 】 


1) LOGISTIC 过 程 中 PROC LOGISTIC 语句 和 MODEL 语句 是 必须 选 的 语句 ， 调 用 此 过 


程 时 只 有 一 个 模型 被 指定 ， 其 余 都 是 可 选择 语句 。 


2) LOGISTIC 过 程 具 有 的 常用 选项 如 表 7-8 所 示 。 


表 7-8 LOGISTIC 过 程 常 用 选项 说 明 


选 项 说 — Hj 
DATA- 指定 分 析 的 数据 集 名 
DESCENDING 对 分 析 输 出 降序 排序 ， 简 写 为 DESC 
本 此 选项 与 OUTEST- 起 使 用 才 有 效 ， 把 估 测 协 方差 矩阵 信息 输出 到 
OUTEST= 指 定 的 数据 集中 
NOSIMPLE 对 自 变 量 描述 性 统计 信息 不 打印 输出 
NOPRINT 不 打印 输出 结果 到 输出 窗 


3) FREQ: 指定 求 变量 的 频 度 。 
4) MODEL: MODEL 语句 是 定义 LOGISTIC 过 程 中 的 模型 。 这 两 类 模型 在 实际 应 用 中 


要 根据 需求 选择 ， 只 能 取 其 一 。 


(D MODEL events/trials = < effects > < / options >: 此 模型 为 事件 /试验 模型 ， 只 应 用 在 二 


分 类 数据 。 用 “/” 分 F 


记事 件 和 试验 。 


@ MODEL v variable < (variable options) > = < effects > < / options >: 此 模型 为 单 实验 模 


iN 


型 ， 主 要 应 用 在 二 分 类 数据 和 有 序 分 类 数据 。 等 号 前 指定 因 变 量 。 


以 上 两 类 模型 常用 选择 项 如 下 : 


LINK=: 指定 对 于 
是 二 分 类 LOGIT 模型 


线性 预测 的 响应 概率 的 联系 函数 , 可 以 简写 为 L=, 默认 LINK=LOGIT， 
(别名 为 CLOGIT) ， 也 适合 于 两 个 响应 类 以 上 的 累积 LOGIT 模型 ( 别 


名 为 CUMLOGIT〉。 如 果 想 用 其 他 函数 ， 可 以 通过 LINK= 指 定 函数 名 。 可 以 取 的 其 他 函数 如 
F: CLOGLOG (互补 双 对 数 函 数 ) 、GLOGIT (广义 LOGIT 函数 ) 和 PROBIT (概率 单位 


模型 ) 。 


NOINT: 不 使 用 截 距 。 


NOFIT: 不 使 用 模型 拟 合 。 


OFFSET=: 指定 4 


SELECTION=: 指定 


根据 指定 的 模型 大 小 ， 


WIE AE M. 
归 分 析 中 选择 的 模型 ， 默 认为 NONE， 简 写 为 N， 为 完全 模型 ， 
找 出 最 佳 模型 。 其 他 4 个 模型 可 以 根据 分 析 需 求 选 择 。 


H 


€ SELECTIONCFORWARD: FORWARD 模型 是 向 前 回归 模型 ， 按 照 SLE 规定 的 P 值 ， 


RHE F 检验 和 


T 检验 计算 残 差 平方 和 作为 引入 变量 到 模型 中 的 条 件 , 如 果 第 一 个 引入 
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«n 


模型 的 变量 通 
量 检验 看 第 二 个 引入 变量 是 否 符合 ， 


\ 符 合 就 吻 


过 这 些 检验 就 保留 此 变量 ， 然 后 依次 引入 第 二 个 变 
和 E 引 入 其 他 变量 。 


E 


H 


ER. WKH 


€ SELECTION-BACKWARD: 


并 对 第 一 次 引入 模型 的 变量 进行 F 检 验 和 TT 检验 
其 他 变量 依次 类 推 。 


里 


BACKWARD 是 向 后 回 
反 。 开 始 所 有 的 变量 都 在 模型 中 ， 按 照 SLE 规定 的 P 值 从 含 
,如 果 此 变 


@ SELECTION=STEPWISE: STEPWISE 是 逐步 回归 模型 。 按 照 SLE 


和 问 后 回 

过 条 件 检验 比较 显著 就 引入 到 模型 中 同 

和 进行 检验 。 如 果 有 不 显著 变量 就 剔除 ， 其 人 
€ SELECTION-SCORE: 最 优 子 集 模 型 。 
【注意 】 SLECTTION= 选 择 模 型 时 截 距 是 被 强 4 


用 选项 “NOINT” 指 定 ， 表 示 剔 除 截 距 。 


10 


(1) 指定 MODEL 语句 中 模型 建立 的 详细 粒度 


BEST=: 对 本 

DETAILS: JKE EA Ro 
FAST: 模型 建立 中 使 用 FAST 排除 方法 。 
HIERARCHY=: 指定 模型 每 步 的 层次 。 


MAXSTEP=: 对 于 模型 选择 方式 选择 的 STEPWISE (逐步 引 


SEQUENTIA: 对 于 模型 中 指定 顺序 筛选 变量 。 
SLENTRY=: 指定 模型 的 显著 性 水 平 。 
START=: 指定 第 一 个 模型 的 变量 数 。 
STOP=: 指定 最 终 模 型 的 变量 数 。 

STOPRES: 对 于 变量 添加 或 删除 的 残 差 卡 方 标准 。 
(2) 指定 模型 拟 合 选择 项 
ABSFCONV=: 指定 绝对 函数 收敛 性 判别 
CONV=: 指定 相关 函数 收敛 性 判别 标准 。 
GCONV=: 指定 相关 剃 度 收 敛 性 判别 标准 。 
XCONV=: 指定 相关 参数 收敛 | 
MAXITER=: 指定 模型 中 的 迭代 最 大 数 。 
SINGULAR=: 指定 模型 中 奇异 性 检验 的 容忍 值 。 
TECHNIQUE=: 指定 模型 中 的 最 大 极 值 的 迭代 
(3) 指定 模型 中 的 置信 区 间 选 择 项 
ALPHA=: 指定 a 概率 值 ， 是 相对 于 回 


标准 


H 


生 判 别 标准 。 


H 


© 


(4) 指定 模型 中 的 分 类 表 选 择 项 
CTABLE: 此 选项 可 以 显示 分 类 表 。 


归 模 型 的 方法 ， 根 据 引 入 变量 进行 的 偏 回 
时 对 已 经 引入 模型 


A 
AE 


E. s 


归 模 型 ， 与 FORWARD I 
全 部 变量 的 模型 开始 ， 


量 不 符合 检验 条 伯 


并 按照 引入 的 变 


F 好 相 


就 剔除 ， 


的 标准 ， 综 合 向 前 


归 平 方 和 进行 检验 ， 如 果 此 变量 经 


E 


H 


依次 类 推 。 


FH AER 


再 用 偏 回归 平方 


ip 


ZI SIME ES EI ES 


指定 SCORE 选项 的 ， 可 以 通过 此 选项 指定 模型 显示 的 数据 。 


| H 


H 


ik. 


归 参 数 和 优势 比 (Odds Ratio) 置信 
(i-a) % 概 率 值 而 言 的 ，vu 的 取 值 范围 为 [0,1]。 默 认 ALPHA=0.05。 


PEVENT=: 指定 模型 中 的 先 验 事件 概率 ， 分 层 抽 档 


j 这 个 选择 项 。 
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方式 ) 指定 最 大 


区 间 为 


PPROB=: 对 于 指定 CTABLE 分 类 表 观 测 可 以 通过 此 选项 指定 临界 概率 值 ， 取 值 范 围 为 
[0，1]。 

(5) 指定 模型 中 的 ROC 曲线 选择 项 

OUTROC=: 对 于 二 分 类 响应 模型 指定 输出 的 ROC 曲线 数据 集 的 名 字 。 

ROCEPS=: 指定 似 然 性 组 标准 概率 ， 取 值 范围 为 0，1]， 默 认 值 为 1E-4。 

(6) 指定 模型 中 的 回归 诊断 选择 项 

INFLUENCE: 对 于 二 分 类 响应 模型 中 为 鉴别 有 影响 观测 显示 诊断 尺度 。 

IPLOTS: 对 于 模型 中 的 每 一 个 回归 诊断 统计 生成 索引 散 点 图 。 

(7) 指定 模型 中 的 详细 显示 选择 项 

CORRB: 显示 参数 估计 的 相关 和 矩阵 。 

COVB: 显示 参数 估计 的 协 方差 矩阵 。 

【注意 】 如 果 用 CLASS 语句 分 类 时 , 其 必须 放 在 MODEL 语句 前 面 ; 如 果 用 CONTRAST 
语句 时 ， 其 必须 放 在 MODEL 语句 之 后 。 


7.3.2. ”相关 分 析 与 回归 分 析 应 用 
1. 相关 分 析 应 用 案例 


H 
M— 


相关 分 析 在 医学 、 经 济 领 域 以 及 产品 检验 领域 经 常用 到 ， 研 究 变量 之 间 的 关系 以 及 关联 
强度 。 
【 例 7.9】 研究 遗传 学 身高 ， 测 量 20 名 学 生 的 身高 与 其 父母 的 身高 数据 ， 如 表 7-9 
所 示 。 
表 7-9 遗传 学 身高 数据 
本 人 Z R 母 亲 
性 ” 别 身高 /cm 身高 /cm 身高 /cm 
1 男 164 60 155 
2 女 156 60 157 
3 男 168 60 165 
4 女 160 75 156 
5 女 162 63 155 
6 男 187 81 156 
7 女 162 72 160 
8 男 167 75 158 
9 女 160.5 75 162 
10 女 160 67 162 
11 女 158 72 155 
12 女 164 69 163 
13 女 165 72 160 
14 男 174 75 162 
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本 A 父 cR R} ES 
15 d 166 172 165 
16 女 158 170 159 
17 58 162 158 147 
18 B 175 167 163 
19 5 170 164 157 
20 女 161 176 160 
* 对 外 部 数据 处 理 ; 
%let path= D:\jx\shengao;”/* 定 义 外 部 文件 路 径 */ 
%let type=.txt; 
%let fil="&path&type"; 
libname jx'd:yjx" /定义 逻辑 库 */ 
data jx.shengao; ”/* 数 据 集 存储 到 指定 逻辑 库 */ 
Infile &fil dm=' dsd missover; 
input haizi :4. 
father :4. 
Mother :4. 
run; 
[il CORR 过 程 分 析 */ 
proc corr data=jx.shengao nosimple; 
var father mother haizi; 
run; 
程序 执行 后 输出 窗口 显示 如 图 7-10 所 示 。 
Bib - “无 标题 ) 
CORR PROCEDURE 
3 $: — father mother 
Pearson 相关 系数 , N = 20 
34 H0: Rho=0 Bi » Prob > [rl 
father mother haizi 
father 1.00000 0.27652 0.32328 
0.2373 0.1544 
mother 0.27652 1.00000 0.14568 
0.2373 0.5400 
haizi 0.32328 0.14568 1.00000 
0.1644 0.5400 
图 7-10 ”遗传 学 身高 分 析 
【程序 解读 】 
1) PROC corr data-jx.shengao nosimple: 调用 CORR 过 程 ，nosimple 选项 抑制 简单 统计 。 
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m 


2) var father mother haizi: 分 析 这 3 个 变量 的 相关 性 。 
【分 析 结 果 解 读 】 


分 析 结 果 显 示 第 一 部 分 显示 简单 统计 ，3 为 变量 个 数 ， 分 别 是 father、mother 和 haizi。 


第 


N 


| 


率 p=0.1644， 与 mother 变量 绝对 不 相关 的 概率 p=0.5400。 
通过 分 析 可 以 看 出 孩子 的 身高 与 父母 的 身高 是 正 相 关 的 。 
2. REG 回 归 分 析 应 用 案例 


二 部 分 显示 Pearson 相关 系数 和 矩阵。 看 haizi 这 一 行 ， 第 一 行为 相关 系数 ， 与 father 变 
量 相关 系数 r=0.32328, 5j mother 相关 系数 r=0.14568。 第 二 行为 p 值 ， 是 当 HO:Rho=0 HT, 


prob>r|， 即 检验 “相关 系数 Rho 为 0” 时 的 显著 性 概率 。 此 处 与 father 变量 绝对 不 相关 的 概 


SE 


相关 分 析 只 是 研究 变量 之 间 是 否 有 关系 。 变 量 之 间 存 在 什么 关系 ， 实 际 上 还 需要 
分 析 。 
【 例 7.10】 回归 分 析 ， 对 例 7.9 通过 回归 分 析 研 究 孩子 身高 与 父 侠 身高 的 关系 。 


【提示 】 例 7.9 通过 相关 分 析 验 证 变量 之 间 有 关系 ， 可 以 通 
什么 关系 。 


* 对 外 部 数据 处 理 ; 
%let path- D:jxWhengao; /# 定 义 外 部 文件 路 径 六 
%let type-.txt; 

Volet fil- "&path&type"; 
libname jx'dNx; /*xE OE BREE*/ 
data jxshengao; /* 4th RTT 88 SIEGE THES 
Infile &fil dim=' dsd missover; 
input haizi :4. 
father :4. 
mother :4. 


run; 
[ifi] REG 过 程 分 析 */ 
proc reg data-jx.shengao ; 


model haizi-father mother /noint influence; 


run; 
quit; 
程序 执行 后 输出 窗口 显示 如 图 7-11 所 示 。 
【程序 解读 】 


过 回 


归 分 析 确 定 变 量 之 间 是 


model haizi-father mother / noint influence: 因 变 量 为 haizi( 孩 子 身高 ), 回归 变量 
(父亲 身高 ) 和 mother (母亲 身高 )，noint 选项 指定 模型 拟 合 时 不 包含 截 距 项 ，influence 选项 


要 求 详细 分 析 每 个 观测 对 估计 和 预测 值 的 影响 。 
【分 析 结果 解读 】 


根据 回归 分 析 确 定 孩子 身高 与 父母 身高 程 什么 线性 关系 ,图 7-11 (一) 输出 区 


为 father 


归 的 t 检 验 


归 方 程 非常 显著 。 


及 方差 分 析 ， 其 中 F=4963.35，P<0.0001, R? 为 0.9982， 说 明 直 线 回 


估计 ,通过 原点 的 直线 回归 方程 得 到 孩子 身高 为 : haizi=0.48720father+0.51943mother， 可 以 预 


测 到 未 来 孩子 身高 大 约 值 =0.48720* 父 亲身 高 +0.51943* 母 亲身 高 。 
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Bi duh - “无 标题 ) 


The REG Procedure 
Model: MODEL 
Dependent Variable: haizi 


Number of Observations Read 20 
Number of Observations Used 20 
NOTE: No intercept in model. R-Square is redef ined. 
analysis of Yariance 


Sum of Mean 
Source DF Squares Square F Value Pr» F 


Model 2 544346 272173 4953.35 «.0001 
Error 18 987.05823 54.83657 
Uncorrected Total 20 545333 


Root MSE 7.40517 R-Square 0.3382 
Dependent Mean 164.37500 Adj R-Sq 0.3380 
Coeff Var 4.48855 


Parameter Estimates 


Parameter Standard 
Variable DF Estimate Error t Value 


father 1 0.48720 0.24792 1.37 
mother 1 0.51943 0.26403 1.37 


REG 回归 分 析 《〈 一 ) 


n 


SAS 


The REG Procedure 
Model: MODELI 
Dependent Yariable: haizi 


Output Statistics 


Hat Cov DFBETAS: 
Residual RStudent Ratio DFFITS father mother 


0. . 。 0. = . 

-0. . : -0. 0. -0. 
0. . E D. =0, 
=0。 . s D =0， 
0. a " ; -D. 

3. s ; à ?. 

-0. . -0. 

-D. . i . shi 

2. . . 。 -D. 

。 。 0. 

-D. 

0. 

-0. 

D. 

D. 

-D. 

0. 

-0. 

-0, 

-0, 


T 
H 


oo u om oN a coro — 


eor 


Sum of Residuals 1.06033 
Sum of Squared Residuals 387.05823 
Predicted Residual SS (PRESS) 1448.30443 


REG 回归 分 析 (三 ) 


n 


7-11 
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3. LOGISTIC 回 归 分 析 应 用 案例 

LOGISTIC 数据 挖掘 中 经 常用 到 此 模型 ， 这 个 模型 是 二 事件 模型 。 

【 例 7.11】 请 根据 客户 购买 电子 产品 的 数据 分 析 哪 类 人 员 购 买 电 子 产 品 比 较 多 ， 以 便 
于 营销 人 员 有 针对 性 的 推广 。 购 买 结果 说 明 如 表 7-10 所 示 。 客 户 学 历 类 型 说 明 如 表 7-11 


所 示 。 表 7-11 ”客户 学 历 类 型 说 明 
学 历 标识 学 历 标识 说 明 

1 博士 
表 7-10 ”购买 结果 说 明 2 mt 
购买 标识 购买 标识 说 明 一 
客户 购买 电子 产品 -一 
5 zi rH 

1 客户 没有 购买 电子 产品 一 
6 JJP 
7 小 学 

回归 分 析 程 序 如 下 : 


* 对 外 部 数据 处 理 ; 

%let path- D:jxMianzi; “定义 外 部 文件 路 径 */ 

%let type=.txt; 

%let fil- "&path&type"; 

libname jx'dXjx5 /* E XP RE */ 

data jx.dianzi ”* 数 据 集 存储 到 指定 逻辑 库 */ 
Infile &fil ; 

PSCPEIGE EK BERE 256 用 lrecl= 指 定 长 度 */ 


input id $name $ education yincome work period goumai days goumai type; 


label goumai type=' 购 买 标识 ' ; 
run; 
proc logistic data-jx.dianzi desc;/#* 逻 辑 回归 分 析 ， 降 序 排列 目标 变量 头 


model goumai type=education yincome work period /noint 
selection-stepwise 
sle-0.2 
sls=0.1 
details 
stb; 
output out-jx.goumai analy; ”/* 指 定 输出 分 析 结 果 到 存储 目录 数据 集 */ 


run; 


程序 执行 后 输出 窗口 显示 如 图 7-12 一 图 7-16 所 示 。 
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Eib - “无 标题 ) 


The LOGISTIC Procedure 
Model Information 
Data Set JX.DIANZI 
Response Variable £ouma i, type 
Number of Response Levels 


Model binary logit 
Optimization Technique Fisher's scoring 


Number of Übservations Read 80 
Number of Observations Used 80 
Response Profile 


Ordered goumai_ Total 
Yalue type Frequency 


1 1 44 
2 0 36 
Probability modeled is goumai_type=1. 


Stepwise Selection Procedure 
p—'TT T ÓÜUaÜ 


图 7-12 LOGISTIC 逻辑 回归 -模型 信息 


Psi 
i 


Bid - (无 标题 ) 
Step 0. No covariates. 


Model Convergence Status 
Convergence criterion (BCONY=1E-8) satisfied. 
-2 Log L - 110.304 


Residual Chi-Square Test 
Chi-Square DF Pr > ChiSq 
35.3476 3 «.0001 


Analysis of Effects Eligible for Entry 


Score 


Effect DF  Chi-Sauare Pr > ChiSq 


educat ion 1 6.5274 0.0106 
yincome 0.2560 
work_period 0.3517 


图 7-13 LOGISTIC 逻辑 回归 -逐步 选择 1 


(无 标题 ) 
Btep 1. Effect education entered: 


Model Convergence Status 


Convergence criterion (GCONY=1E-8) satisfied. 


Model Fit Statistics 


Without With 
Criterion Covariates Covariates 
AIC 110.304 106.224 
SC 110.904 108.606 
-? Log L 110.304 104.224 


dd a) 


图 7-14 LOGISTIC 逻辑 回归 -逐步 法 选择 自 变量 


四 


Bà 输出 - (无 标题 ) 


Ddds Ratio Est imates 


Point 
Estimate 


8.558 
0.849 
0.062 


353 Wald 
Conf idence Limits 


Effect 


24.140 
1.025 
0.273 


educat ion 
yincome 
work period 


3.034 
0.703 
0.014 


Association of Predicted Probabilities and Übserved Responses 


Percent Concordant 31.3 Somers? D 
Percent Discordant 1 
Percent Tied 


Pairs 


Analvsis of Effects Eligible for Removal 


Wald 
Chi-Square 
16.4645 
2.8953 
13.1610 


DF Pr > Chisg 
<.0001 
0.0888 
0.0003 


Effect 


educat ion 
vIncome 


1 
1 
work period 1 


H 


图 7-15 LOGISTIC 逻辑 回归 -OR 值 估计 


Bü 输出 - (无 标题 ) 


Summary of Stepwise Selection 


Score Wald 
Chi-Square Chi-Square 


5.5274 
30.3534 
3.0370 


Number 


Effect 
Entered Removed DF In 
educat ion 
work period 


yincome 


1 
2 
3 


图 7-16 LOGISTIC 逻辑 回归 -逐步 法 选择 自 变量 过 程 总 结 
【程序 解读 】 
1) PROC logistic data=jx.dianzi desc: 调用 LOGISTIC 逻辑 回归 过 程 ， 通 过 data= 语 句 指 
定 进行 LOGISTIC 分 析 的 数据 集 。 
2) desc: 此 选项 表示 对 数据 集 目标 变量 按照 降序 排序 输出 分 析 。 
3) Model: 指定 建 模 的 因 变 量 = 自 变量 。 此 程序 goumai type ENTE; HEEE 


.-EL 
ER o 


education, yincome 和 work period 三 个 变 


4) noint: noint 选项 表 


示 不 要 截 矩 。 


5) Selection=stepwise: 表示 回归 选择 的 模型 ， 此 程序 选择 的 是 逐步 回归 分 析 stepwise。 


6) sle=: 筛选 变量 进入 模型 的 阔 值 。 
7) slsc: 筛选 变量 保留 在 模型 的 阔 值 。 
8) details: 此 选项 指定 把 分 析 结 果 的 详细 信息 输出 。 


9) std: 此 选项 指定 输出 标准 化 数据 模型 选项 。 

10) output out=: 指定 把 输出 分 析 结 果 保 存 到 指定 数据 集 存储 。 
【分 析 结 果 解 读 】 

1) 图 7-12 所 显示 模型 的 信息 如 下 。 

Data Set: 数据 集 信息 行 显示 数据 集 为 JX.DIANZHI。 
Response Variable: 响应 变量 行 ， 因 变量 为 goumai type. 
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Number ofResponse Levels: 响应 变量 分 类 


显示 为 2。 


因 变 量 可 以 取 的 值 ， 此 处 为 二 分 类 ， 


Model: 模型 行 指明 模型 LINK= 了 映射 函数 ， 此 处 为 二 分 类 logit 函数 。 
Optimization Technique: 优化 技术 行 指明 选择 的 优化 技术 为 Fisher’s scoring 方法 。 
Number of Observations Reed: 此 行 指明 分 析 选 择 的 观测 记录 数 为 80 条 。 


Response Profile: 显示 响应 变量 的 信息 ，Ordered Value 指明 响应 变量 的 排列 顺序 ， 同 时 


可 以 看 出 goumai type. (购买 标识 ) 变量 中 goumai type-1 的 购买 客户 为 44 位 客户 ， 


goumai type=0 表示 没有 购买 的 客户 为 36 位 客户 ; Probability model is default_type=1 表示 计 
用 的 分 析 响 应 变量 的 概率 模型 值 为 1 事件 的 发 生 
2) 图 7-13 显示 逐步 回归 分 析 过 程 信息 如 下 。 


Step 0. No covariates: 表示 逐步 回归 Mum 言 息 ， 此 处 为 第 零 步 。 


Model Convergence Status: 模型 收敛 状态 信 


言 息 ， 此 处 对 选择 参数 判断 是 否 收敛 的 标准 显 


示 信 息 为 Convergence criterion (GCONV=1E-8) satisfied.， 选 择 标准 为 1E-8。 该 信息 是 用 来 


对 模型 分 析 的 ， 和 变量 无 关 ， 模 型 拟 合 要 达到 收敛 标准 。 


Residual Chi-Square Test: 此 项 下 面 显 示 残 差 信息 ，Chi-Square 显示 残 差 卡 方 信 息 为 


35.3476; 概率 值 p<0.0001。 


Analysis of Effects Eligible for Entry: 此 信和 


的 显示 结果 。 


3) 如 图 7-14 所 示 ， 模 型 中 含 3 $5 为 便于 理解 ， 选 择 第 一 个 变量 
， 和 第 一 个 变量 education 的 引入 方式 
ERA RE 息 如 下 。 
! 拟 合 指 标 信息 。 


education 进行 分 析 讲 解 ， 其 他 变量 进行 逐 


和 参数 选择 项 一 样 。 显 示 引 进 变 量 Cue Wen 
Model Fit Statistics: 模型 拟 合 统计 量 ， 在 此 项 信 


息 项 对 应 的 是 引入 自 变量 


有 效 性 信息 分 析 输 


EE 


息 下 面 显 示 模 型 


Criterion: 此 列 为 模型 拟 合 似 然 函数 评价 指标 标准 项 。 
AIC: 7j Akaike Informatiom Criterion 的 人 
AIC--2LOGL42(N-R), —LOGL 的 取 值 范围 
中 自 变量 的 数目 ，R 为 响应 变量 〈 因 变量 ) Ky 
数 数 量 越 大 时 ， 似 然 函 数值 也 就 越 大 ，-2LOGL 变 小 。 


Wi, AIC 值 较 小 时 表示 模型 拟 合 较 好 


sto. ceo]， 值 越 小 说 


2 (N+R) 可 


SC: 为 Schwarz 标准 ， 是 根据 自 变量 数 


式 表示 为 SC=-2LOGL+2 (N+R) *In(n), 此 指标 只 能 用 了 


其 他 条 件 相 同时 SC 越 小 说 明 模型 拟 合 越 好 。 


-2LOGL: 该 计算 公式 类 似 于 线性 回归 的 总 平方 和 。 


H 


Æ Akaike 信息 评价 标准 ， 公 式 表 示 为 
明 拟 合 越 好 ; N 表示 模型 


对 于 逻辑 回归 R=2-1=1。 模 型 中 参 


可 以 抵消 参数 数量 产生 的 影 


量 对 -2LOGL 值 进 行 的 一 种 调整 ， 公 


比较 对 同一 数据 所 设 的 不 同 模型 ， 


Without Covariates: 此 列 显示 无 变异 系数 时 3 个 评价 指标 对 应 的 值 。 


With Covariates: 此 列 显示 有 变异 系数 时 3 个 评价 指 对 应 的 值 。 
归 分 析 最 后 显示 对 3 个 自 变 量 


H 


4) 如 图 7-15 所 示 ， 


项 显示 了 对 educaion yincome 和 work period 自 


Cofidence Limits (95% 可 信 区 间 估 计 ) 信息 
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看 出 受 教育 水 平 越 高 的 客户 购买 电子 产 — 


^b: Association of Predicted Probabilites and Observed Response 


BETA BK, 学 历 


的 优势 比 估 计 ， 
的 Point Estimate 点 估计 ) 和 95%Wald 
B) 占 比较 高 ， 可 以 
越 低 的 客户 购买 的 电子 产品 越 
项 为 预测 概率 和 观测 响应 之 间 


& education CZ 


Odds Ratio Estimates 


的 关联 统计 信息 ， 此 处 重点 关注 Pairs 项 。c 为 统计 量 ， 反 映 了 实际 观测 值 和 模型 预测 的 事件 
概率 的 关联 强度 ， 是 一 个 很 重要 的 指标 。 此 实验 c 的 对 应 值 为 0.919， 可 以 看 出 预测 事件 概率 
和 实际 观测 数据 之 间 的 关联 强度 非常 高 。 

5) 如 图 7-16 所 示 ， 最 后 输出 回归 分 析 过 程 汇总 信息 ， 显 示 选 入 变量 的 P 值 均 小 于 0.1, 
3 个 自 变 量 都 保留 在 模型 中 。 

结论 : 可 以 看 出 教育 、 工 作 年 限 和 年 收入 这 三 个 自 变量 参数 可 以 用 来 判断 哪些 客户 经 常 
购买 电子 产品 ， 对 学 历 低 、 工 作 年 限时 间 不 长 、 年 收入 低 的 客户 建议 不 做 推广 销售 。 


7.4 因子 分 析 基 础 


因子 分 析 是 指 研究 从 变量 群 中 提取 共性 因子 的 统计 技术 。 通 过 因子 分 析 分 析 一 种 用 少数 
的 彼此 不 相关 的 综合 指标 来 表达 多 个 观测 变量 的 多 元 统计 方法 。 因 子 分 析 最 早 由 英国 心理 学 
家 C.E. 斯 皮尔 曼 提 出 。 他 发 现 学 生 的 各 科 成 绩 之 间 存 在 着 一 定 的 相关 性 ， 一 科 成 绩 好 的 学 生 ， 
往往 其 他 各 科 成 绩 也 比较 好 ， 从 而 推 想 是 否 存在 某 些 潜在 的 共性 因子 ， 或 者 某 些 一 般 智 力 条 
牛 影 响 着 学 生 的 学 习 成 绩 。 因 子 分 析 可 在 许多 变量 中 找 出 隐藏 的 具有 代表 性 的 因子 。 将 相同 
本 质 的 变量 归 入 一 个 因子 ， 可 以 减少 变量 的 数目 ， 还 可 以 检验 变量 间 的 假设 关系 。 


7.4.1 因子 分 析 概 述 


因子 分 析 在 心理 学 、 社 会 学 、 医 学 和 经 济 学 等 学 科 中 有 着 广泛 的 应 用 。 因 子 分 析 的 主要 
目的 是 用 来 描述 隐藏 在 一 组 测量 到 的 变量 中 的 一 些 更 基本 的 ， 但 又 无 法 直接 测量 到 的 隐 性 变 
te. 例如， 如 果 要 测量 通货 膨胀 的 原因 ， 是 内 部 行政 手段 干预 调控 的 直接 原因 还 是 其 他 原因 。 
这 里 ， 通 货 膨 胀 与 经 济 其 他 指标 是 无 法 直接 用 一 个 测度 〈 比 如 一 个 问题 ) 来 测量 的 ， 它 们 必 
须 用 一 组 测度 方法 来 测量 ， 然 后 把 测量 结果 结合 起 来 ， 才 能 更 准确 地 来 把 握 。 可 以 直接 测量 
的 可 能 只 是 它 所 反映 的 一 个 表征 Cmanifest)， 或 者 是 它 的 一 部 分 。 在 这 里 ， 表 征 与 部 分 是 两 
个 不 同 的 概念 。 表 征 是 由 这 个 隐 性 变量 直接 决定 的 。 隐 性 变量 是 因 ， 而 表征 是 果 。 例 如 ， 通 
货 膨 胀 是 货币 发 行 过度 的 一 个 主要 决定 因素 。 

从 显 性 的 变量 中 得 到 因子 ， 需 要 借助 因子 分 析 的 方法 ， 一 类 是 探索 性 因子 分 析 ， 男 一 类 
是 验证 性 因子 分 析 。 探 索性 因子 分 析 不 事先 假定 因子 与 测度 项 之 间 的 关系 ， 而 让 数据 “自己 
说 话 ” 主 成 分 分 析 是 其 中 的 典型 方法 。 验 证 性 因子 分 析 假定 因子 与 测度 项 的 关系 是 部 分 知道 
的 ， 即 哪个 测度 项 对 应 于 哪个 因子 ， 虽 然 尚且 不 知道 具体 的 系数 。 

1. 探索 性 因子 分 析 
因子 分 析 的 方法 有 重心 法 、 影 像 分 析 法 、 最 大 似 然 解 、 最 小 平方 法 、 拉 奥 典 型 抽 因 法 等 。 
这 些 方 法 本 质 上 大 都 属 近 似 方 法 ， 是 以 相关 系数 矩阵 为 基础 的 ， 所 不 同 的 是 相关 系数 矩阵 对 
角 线 上 的 值 采用 不 同 的 共同 性 估 值 。 在 社会 学 研究 中 ， 因 子 分 析 常 采用 以 主 成 分 分 析 为 基础 
的 反 歼 法 。 主 成 分 分 析 的 目的 与 因子 分 析 不 同 ， 它 不 是 抽取 变量 群 中 的 共性 因子 ， 而 是 将 变 
量 进行 线性 组 合 ， 成 为 互 为 正 交 的 新 变量 ， 以 确保 新 变量 具有 最 大 的 方差 。 在 求解 中 ， 正 如 
因子 分 析 一 样 ， 要 用 到 相关 系数 矩阵 或 协 方差 矩阵 。 为 了 确定 因子 的 实际 内 容 ， 还 须 进 一 步 
旋转 因子 ， 使 每 一 个 变量 尽量 只 负荷 于 一 个 因子 之 上 ， 这 就 是 简单 的 结构 准则 。 和 常用 的 旋转 
有 直角 旋转 法 和 斜 角 旋转 法 。 作 直角 旋转 时 ， 各 因素 仍 保持 相对 独立 。 在 作 斜 角 旋 转 时 ， 人 多 
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pp 
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uu: 


要 成 分 分 析 。 但 如 果 丰 
HESI 
变量 变化 时 ， 因 


F 因 素 间 存在 一 定 关 系 。 上 述 从 变量 群 中 提取 共性 


理论 模型 中 


之 后 ， 就 有 测度 项 的 “ 质 
与 其 所 设计 
个 测度 项 工具 中 是 


2. 验证 性 因子 分 析 
验证 性 


究 的 一 种 有 力 工具 ， 但 不 能 肯定 


地 说 一 项 研究 中 含有 几 个 因 
子 的 数量 也 要 变化 。 此 外 对 每 个 因子 实际 含义 的 解释 也 不 是 绝对 


f. f 


的 。 


因子 的 方法 ， 又 称 RR 型 因子 分 析 和 及 型 主 
究 个 案 群 的 共性 因子 ， 则 称 Q 型 因子 分 析 和 Q 型 主 成 分 分 析 。 因 


子 分 


因子 分 析 (Confirmatory Factor Analysis) 的 强项 在 于 它 允 许 研 究 者 明确 描述 


的 细节 。 因 


ES, » 
FH 


问题 ， 


为 测量 误差 的 存在 ， 下 


2U T 


要 使 用 多 个 测度 项 。 当 使 | 


度 项 


的 因 


于 有 显 赣 的 载荷 ， 并 与 


不 相干 的 


因 


子 没有 显著 的 载荷。 步 检 


可 能 进 一 


否 存在 单一 方法 偏差 ， 一 些 测度 项 之 间 是 否 存在 “ 子 因子 ”。 这 些 测试 


B 
p 


都 


究 中 选择 的 


人 


多 个 测度 项 
即 有 效 性 检验 。 而 有 效 性 检验 就 是 要 看 一 个 测 


不 
(=) 


验 一 


要 


求 研 究 者 明确 描述 测度 项 、 因 子 、 残 差 之 间 的 关系 。 对 这 种 关系 的 描述 又 叫 测 度 模型 


(Measurement Model)。 对 测度 模型 的 质量 检验 是 假设 检验 之 前 的 必要 步骤 。 验 证 性 因 
往往 用 极 大 似 然 估 计 法 求解 。 


方差 估计 值 。 给 出 的 数 


p 


但 


ti ft 


FACTOR 过 程 是 


语法 格式 : PROC FACTOR < 选项 >; 
PRIORS 数值 1， 数 值 2…; 


VAR 变量 表 ; 
PARTIAL 变量 表 ; 
FREQ ”变量 表 ; 
BY 变量 表 ; 


WEIGHT 变量 </ 选项 >; 


RUN; 


【语法 解读 】 
1) 可 以 取 的 选项 如 下 。 


DATA —SAS 数据 集 : 给 出 输入 数据 集 的 名 称 。 


OUTSAS 数据 集 : 创建 一 个 数据 集 ， 
括 被 称 为 Factorl Factor2 等 变量 的 因 


它 包 括 来 自 


与 结构 方程 的 方法 连用 。 
SAS 系统 实现 因子 分 析 的 过 程 。 


| DATA 二 的 数据 集中 的 全 部 数据 ， 


子 得 分 估计 。 


OUTSTAT=SAS 数据 集 : 规定 一 个 包含 大 部 分 分 析 结 果 的 输出 数据 。 


COV: 要 求 用 协 方差 阵 蔡 代 相关 系数 阵 作 因 
规定 被 保留 的 因子 个 数 。 


NFACTORS^n: 
ROTATE-name: 


规定 旋转 方法 。 


ROTATE=E: 规定 正 交 的 均 方 最 大 旋转 。 


ROTATE=no: 规定 不 旋转 。 


ROTATE-v: 规定 正 交 的 方差 最 大 旋转 。 


ALL: 打印 除 
SCORE: 打印 因 


子 得 分 系数 。 


2) PRIORS 数值 1， 数 值 2…: 为 每 个 变量 指定 


图 形 之 外 的 所 有 可 选择 的 输出 。 


T. 


3) PARTIAL 变量 表 : 指定 基于 偏 
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还 


子 分 析 


还 包 


个 介 于 0.0 5 1.0 之 间 的 先 验 公 因子 
值 与 VAR 语句 中 变量 的 顺序 相对 应 , 数值 的 个 数 与 变量 的 数目 要 相等 。 
相关 或 协 方差 矩阵 进行 分 析 的 相应 变量 。 


7.4.2 因子 分 析 应 用 


在 可 持续 


因子 分 析 主 要 应 用 在 社会 学 、 经 济 学 、 心 理学 和 医学 等 领域 中 。 


【 例 7.12】 为 了 全 面 提高 人 们 的 生活 质量 , 满足 人 们 日 益 增 长 的 物质 和 文化 的 合理 需求 。 


类 的 健康 延续 和 生生 不 县 ， 维 系 人 类 与 自然 的 平衡 ， 提 供 整体 物资 


家 采 月 


上 月“ 人文 与 经 济 (Humanity and Economy) 发 展 综合 系数 ”指标 对 于 国民 生活 质量 进行 


测度 。 人 文 发 展 综合 系数 指标 组 合 ， 即 人 的 健康 状况 、 教 育 程度 、 


类 指标 组 合 的 整体 表达 内 涵 ， 去 衡量 一 个 国家 或 地 区 的 社会 发 展 ， 
总 水 平 。 


的 ， 


指标 体系 如 表 7-12 所 示 。 


表 7-12 人文 与 经 济 发 展 指标 体系 


发 展 消费 的 统一 理念 下 ， 增 加 社会 财富 ， 创 造 更 多 的 物质 文明 和 精神 文明 ， 保 持 人 


文明 和 精神 文明 建设 ， 国 


p^ 


人 均 国 民 收 入 ， 通 过 这 3 


总 体 状 况 以 及 国民 生活 质量 


指标 标识 指标 标识 说 明 
area 地 区 
Human el 人 均 GDP 
Human e2 人 口 总 数 
Human e3 教育 程度 (1-13) 
Human e4 房价 /m? 
Human e5 预期 寿命 


data Human e; 
title "国民 生活 质量 人 文 与 经 济 指标 分 析 "; 


input area $ Human el-Human e5; 


cards; 

上 海 10827 23019148 11.6 15258 74 
天 津 10399 12938224 10.3 7979 76 
北京 10377 19612368 12.6 18300 75 
江苏 7779 78659903 8.2 5817 76 
浙江 752454426891 8.3 9279 70 

内 蒙古 6978 24706321 7.5 3518 73 
广东 6440 104303132 8.9 7482 72 
辽宁 6232 43746323 7.3 4448 75 
山东 6040 95793065 8.1 3919 73 
福建 590036894216 8.3 6250 74 


此 因子 分 析 过 程 调 用 */ 


proc factor data-Human enfactors-3 score out=analy hum e; 


run; 


程序 执行 后 输出 窗口 显示 如 图 7-17 所 示 。 
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Ba 输出 - 【无 标题 ) 


Factor Pattern 


Factorl Factor? Factor3 
Human. el 0.34383 0.01321 0.02272 
Human, e? -0.69316 0.34935 0.62615 
Human_e3 0.34058 0.23487 0.13173 
Human, e4 0.88221 0.41112 0.08555 
Human, e5 0.43023 -0.82284 0.36374 


Variance Explained by Each Factor 
Factorl Factor? Factor3 
3.2307188 1.0234621 0.5630085 


Final Communality Estimates: Total = 4.823183 


Human. el Human. &2 Human. e3 Human, &e4 Human. e5 
0.30285350 0.33458130 0.97653455 0.35465124 0.33445283 
g 四 | PME 
因子 分 析 (一 ) 


天 输出 - (无 标题 ) 


The FACTOR Procedure 
Initial Factor Method: Principal Components 


Scoring Coefficients Estimated by Regression 


Squared Multiple Correlations of the Yariables with Each Factor 
Factorl Factor2 Factor3 


1.0000000 1.0000000 1.0000000 


Standardized Scoring Coeff icients 


Factorl Factor? Factor3 
Human. el 0.23333823 0.01230383 0.0333306 E 
Human. e2 -0.2145533 0.34133831 1.10042421 
Human, e3 0.23113537 0.22948656 0.33705544 
Human. e4 0.27306332 0.40153576 0.15052154 
Human, e5 0.13316732 -0.8033723 0.63325884 E 
图 | 四 | 3 .:; 


因子 分 析 (二 ) 


图 7-17 


【程序 解读 】 

PROC factor data-Human e nfactors-3 score out-analy hum e: nfactors=3 指定 将 要 提取 因 
子 分 最 大 数目 为 3，score 指定 显示 特征 值 碎 石 图 。 

【分 析 结 果 解 读 】 

根据 因子 分 析 和 矩阵 可 以 看 出 Human el (AI GDP) 在 因子 factor] 占 比 0.29399823 (最 


H) , Human e4 ORM) 在 因子 factor2 为 0.40169676 (最 高 ) ，Human e5 〈 预 期 寿命 ) 在 
因子 factor3 为 0.63925884 (最高) ， 从 而 推断 出 人 均 GDP、 房 价 和 预期 寿 


与 经 济 满意 
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Titi 


T 


|s 


命 是 影响 国民 人 文 
度 的 主要 原因 ， 需 要 加 强 改善 这 些 指 标 ， 以 便于 提高 国民 生活 质量 


o 


7.5 生存 分 析 基 础 


ML 
Cs 


生存 分 析 (Survival Analysis) 主要 应 用 在 医学 、 生 物 学 、 保 险 学 、 可 靠 性 
经 济 学 等 方面 。 生 存 分 析 是 对 生存 资料 的 分 析 ， 根 据 试验 或 调查 得 到 的 数据 对 生物 或 人 


的 生存 时 间 进 行 分 析 和 推断 ， 研 究 生 存 时 间 和 结局 与 众多 影响 因 
方法 ， 也 称 生存 率 分 析 或 存活 率 分 析 。 


FE 工 程 学 、 社 会 


素 间 的 关系 及 其 程度 大 小 的 


7.5.1 生存 分 析 概 述 

生存 分 析 是 研究 生存 现象 和 响应 时 间 数 据 及 其 统计 规律 的 一 门 学 科 ， 其 目的 是 描述 生存 
时 间 的 分 布 以 及 它 与 其 他 变量 的 关系 。 生 存 分 析 的 响应 变量 是 生存 时 间 ， 与 其 有 关 的 自 变量 
是 与 生存 时 间 有 关 的 其 他 变量 ， 其 中 自 变量 可 以 是 离散 的 〈 如 性 别 、 高 矮 、 民 族 等 )， 也 可 以 
是 连续 变量 (如 温度 、 身 高 和 年 龄 等 )。 


1. 生存 分 析 方 法 
(OD 非 参数 法 


非 参数 检验 是 检验 分 组 变量 各 水 平 所 对 应 的 生存 取消 是 否 一 致 。 常 用 的 方法 有 乘积 极限 


法 、 寿 命 表 法 、 对 数 秩 检验 和 似 然 比 检验 等 。 


(2) 参数 法 


参数 法 是 指 已 知 生存 时 间 服 从 特定 的 参数 模型 。 常 
(Weibull Distribution) 法、 对 数 正 态 


G) 半 参 数 法 


2. 生存 分 析 描 述 语 
(1) 生存 时 间 


生存 时 间 指 观察 体 的 存活 时 


发 生 时 所 经 历 的 时 间 〉 和 截 尾数 据 时 间 OR 


情况 )。 
(2) 终 检 变量 


半 参 数 法 是 在 特定 的 假设 条 们 
方法 如 Cox 模型 分 析 方 法 。 


F 下， 创建 生存 时 间 随 多 个 风险 因 


方法 有 指数 分 布 法 、 威 布尔 分 布 
回归 分 析 法 以 及 对 数 LOGISTIC 回归 分 析 法 等 。 


素 变 化 的 回 


间 ， 通 常 称 为 失效 时 间 。 必 须 指定 生存 时 间 ， 
变量 作为 生存 时 间 。 生 存 时 间 有 两 种 类 型 .完全 数据 时 间 〈 指 从 研究 对 象 事 人 


终 检 变 量 值 是 指 生存 时 间 是 否 删 失 ， 为 数值 类 型 的 非 缺 失 值 。 


(3) 层 变 量 


层 变 量 是 生存 分 析 中 用 来 确定 层 水 平 的 变量 。 

(4) 检验 协 变量 

检验 协 变 量 是 生存 分 析 中 用 来 检验 与 失效 时 间 相 关 的 数值 变量 
(5) ID 变量 

ID 变量 是 生存 分 析 中 用 来 做 观测 的 标签 。 


(6) 生存 概率 


生存 概率 是 指 生存 分 析 


归 方 程 。 常 用 


2 c 
只 能 指定 一 个 


的 起 点 到 事件 


究 对 象 由 于 到 研究 时 间 结 束 时 事件 尚未 发 生 等 


FP 研 究 对 象 开 始 时 间 到 结束 时 间 仍 然 存活 的 可 能 性 大 小 ， 


j P 表示 o 
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3.SAS 系 统 常用 生存 分 析 过 程 
(1) lifetest 过 程 
lifetest 过 程 属于 非 参 数 法 生存 分 析 过 程 ， 主 要 用 来 分 析 有 右 终 检 值 的 数据 ， 计 算 响 应 变 
量 与 其 他 变量 相关 联 的 秩 次 检验 。 这 类 数据 分 析 时 一 般 需 要 估计 生存 时 间 分 析 ， 用 到 生存 分 
布 函数 SDF (生存 函数 )。 
语法 格式 : PROC lifetest < 选项 > ; 
time 时 间 变 量 <* 终 检 变 量 表 >; 


by 变量 表 ; 
freq 变量 ; 
id 变量 表 ; 


strata 变量 < K ><.. 变量 <( 表 )>> ; 


survival 选项 ; 
test 变量 表 ; 
RUN; 

【语法 解读 】 

1) lifetest< 选项 >: lifetest 过 程 常用 选项 如 下 。 

data=: 指定 生存 分 析 的 数据 集 。 

Method=PLILTlact: 设置 用 以 计算 生存 函数 估计 值 的 方法 。 此 选项 可 设置 的 值 及 其 含义 如 
F: “p” CX “km”) 为 乘积 极限 法 (或 Kaplan-Meier 2); “act” (EK "life" W "It"? 为 寿命 
表 法 。 默 认 设置 为 “method=pl”。 

Intervals=: 寿命 表 指 定 用 以 计算 寿命 表 的 区 间 端 点 。 区 间 端 点 必须 为 非 负 数 ， 无 论 指 定 
的 区 间 端 点 中 有 无 0, 寿命 表 的 计算 总 是 以 0 为 第 一 个 区 间 的 起 点 ,而 每 一 个 区 间 只 具有 下 端 
点 而 无 上 端点 《〈 即 为 半 开 半 闭 区 间 )。 

Width=: 寿命 表 法 计算 生存 函数 估计 值 时 ， 指 定 寿命 表 的 区 间 宽 度 。 如 果 指 定 了 
“intervals=” 选 项 ， 此 选项 失效 。 

Plots=: 生存 函数 估计 值 或 删 失 值 绘制 图 形 。 其 完整 设置 形式 应 为 “PLOTS= ( type 
<(NAME=name)> <, ..., type <(NAME=name)> > )", “type ”代表 绘 图 的 类 型 ,，“NAME=name” 
表示 将 所 绘图 形 以 指定 的 名 称 存储 为 SAS 目录 的 条 目 (entry)。 其 中 ,“NAME” 为 关键 字 (可 
为 小 写 ), “name” 为 用 户 指定 的 条 目 名 称 。 关 于 绘图 类 型 详 见 “plots=” 选 项 的 绘图 类 型 。 

alpha-: 取 值 范围 为 0.0001 一 0.9999 的 小 数 ， 指 定 生存 时 间 四 分 位 数 间距 可 信 区 间 的 置 
言 水 平 ， 默 认 设 置 为 “alpha=0.05”。 

outtest-: 指定 生存 分 析 的 输出 数据 集 。 

Missing: 此 选项 允许 数值 变量 的 缺 项 值 或 字符 变量 的 空格 值 作为 有 效 的 分 层 水 平 。 

2) time 时 间 变 量 <* 终 检 变 量 表 > : time 语句 指定 失效 时 间 变 量 ， 星 号 后 为 一 右 终 检 
变量 。 

3) strata 变量 < 表 ><.. 变量 < ( 表 ) > > : strata 语句 的 作用 是 指定 用 以 分 层 的 变量 ， 
如 果 要 将 strata 变量 的 缺失 值 也 作为 一 个 合法 的 水 平 用 以 分 层 ， 可 在 strata 语句 中 设置 
“missing” 选 项 。strata 语句 中 可 指定 多 个 分 层 变量 ， 分 层 情 况 将 由 各 分 层 变量 水 平 的 组 合 来 
决定 。 对 于 数值 型 分 层 变 量 ， 若 为 其 设置 分 层 区 间 端 点 列表 ， 该 变量 的 水 平 与 形成 的 区 间 一 
一 对 应 ， 设 置 方式 与 proc lifetest 语句 的 “intervals=” 选 项 中 类 似 ， 对 于 数值 型 分 层 变 量 ， 若 
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为 其 设置 分 层 区 间 端 点 列表 ， 该 变量 的 水 平 与 形成 的 区 间 一 一 对 应 。 所 划分 的 区 间 均 为 半 开 
半 闭 区 间 ， 第 一 个 区 间 总 是 以 -oo 为 下 界 ， 最 后 一 个 区 间 总 是 以 = 为 上 界 。 
4) test FEK: test 语句 指定 需要 与 生存 时 间 进 行 关联 性 分 析 的 协 变量 ， 语 句 中 的 变量 
必须 为 数值 型 。 对 于 test 变量 ，lifetest 过 程 将 通过 两 类 秩 检 验 统计 量 来 检验 它们 与 生存 时 间 
的 关联 性 ， 每 一 个 test 变量 的 单 变量 检验 的 统计 量 也 将 被 给 出 ， 一 个 有 关 协 变量 联合 效应 的 
统计 量 列表 也 将 被 给 出 , 此 统计 量 列表 的 顺序 和 各 协 变量 对 联合 效应 贡献 的 大 小 顺序 相 一 致 。 
(2) lifereg 过 程 
lifereg 过 程 属于 参数 法 过 程 ， 又 称 为 生存 回归 过 程 ， 用 参数 模型 拟 合 可 能 有 终 检 值 的 一 
组 数据 。 
语法 格式 : PROC lifereg < 选项 > ; 
by 变量 表 ; 
class 变量 表 ; 
< 标号 : > model 响应 变量 =< 效 应 ></ 选 项 >; 
Output <out= 数 据 集 > 关键 字 = 名 < … 关 键 字 = 名 > < 选项 >; 
RUN; 
【语法 解读 】 
1) lifereg < 选项 >: 常用 选择 项 如 下 。 
data= 数 据 集 名 : 指定 生存 分 析 的 数据 集 。 
Outtest= 数 据 集 名 : 指定 输出 数据 集 。 
2) class 变量 表 : 指定 分 类 变量 。 注 意 ， 此 语句 必须 在 model 语句 之 前 出 现 。 
3) model 响应 变量 =< 效 应 ></ 选 项 >: 创建 响应 变量 与 自 变 量 之 间 的 关系 模型 。 
4) output: 指定 将 生存 分 析 模 型 统计 量 输 出 到 一 个 新 的 SAS 数据 集中 。 
(3) phreg 过 程 
phreg 过 程 属于 半 参 数 法 生存 分 析 过 程 ， 针 对 生存 数据 执行 基于 Cox 比例 风险 模型 (Cox 
Proportional Hazards Model) 的 回归 分 析 ， 可 以 检验 有 关 回 归 参 数 的 线性 假设 ， 针 对 配对 病例 
对 照 研究 执行 LOGISTIC 回归 分 析 过 程 ， 创 建 包含 有 关 统 计量 的 输出 数据 集 等 。 
语法 格式 : PROC phreg < 选项 >; 
model response < *censor(list) > = variables < /options > ; 
strata variable < (list) > < ...variable < (list) > > < /option > ; 


< abel: > test equation1 < ,…, equationk > < /option > ; 


imo 


freq variable ; 
weight variable < /option >; 
id variables ; 
output < out-sas-data-set > < keyword-name... keyword-name > « /options > ; 
baseline < out-sas-data-set > < covariates-sas-data-set > 
< keyword-name... keyword=name > < /options > ; 
by variables ; 
RUN; 


【语法 解读 】 
1) phreg < 选项 >: 常用 选项 如 下 。 
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data= 数 据 集 名 : 指定 生存 分 析 的 数据 集 名 。 

covout: 将 各 参数 估计 值 的 协 方差 矩阵 输出 到 “outest=” 选 项 所 指定 的 输出 数据 集中 ， 此 
选项 只 在 设置 了 “outest=” 选 项 的 情况 下 才 有 效 。 

noprint: 不 打印 输出 分 析 结 果 到 输出 窗口 。 

nosummary: 禁止 结果 中 对 删 失 值 和 非 删 失 值 观测 频数 的 显示 。 

outest-: 指定 输出 数据 集 , 用 以 存储 回归 系数 估计 值 等 若干 统计 量 。 如 果 设 置 了 “covout” 
选项 ， 此 输出 数据 集中 将 包含 各 参数 的 协 方差 矩阵 。 

simple: 对 于 model 语句 中 指定 的 自 变 量 , 输出 结果 中 仅 显 示 有 关 的 简单 统计 量 , 如 均 数 、 
标准 差 、 最 小 值 以 及 最 大 值 等 。 

2) model 语句 : model 语句 指定 作为 失效 时 间 的 变量 、 可 选 的 删 失 值 状态 变量 以 及 自 变 


A 
SF o 


model 语句 可 设置 为 两 种 不 同 的 方式 : 


model response < *censor ( list ) > = variables < /options > ; 


iN 


lii 


model (t1, t2) < *censor(list) > = variables < /options > ; 
第 一 种 格式 适用 于 仅 有 一 个 应 变量 的 情况 ， 第 二 种 格式 适用 于 计数 过 程 输入 方式 的 两 个 
应 变量 的 情况 。model 语句 的 第 一 种 类 型 中 ， 等 号 前 的 “response” 项 代表 作为 失效 时 间 的 变 
量 ， 如 果 包 含 删 失 值 ， 则 需 指 定 “censor” 项 ， 以 表示 删 失 值 状态 ， model 语句 的 第 二 种 类 型 
中 ， 表 示 失 效 时 间 的 变量 为 两 个 ， 构 成 一 个 半 开 半 半 区间， 表示 观察 对 象 处 于 危险 状态 的 时 
间 区 间 。phreg 过 程 要 求 删 失 值 状态 变量 和 自 变量 必须 为 数值 型 变量 ， 失 效 时 间 变 量 不 能 取 负 
数值 。 如 果 失 效 时 间 的 取 值 为 负数 ， 相 应 的 观测 将 被 剔除 。 


7.5.2 生存 分 析 应 用 


生存 分 析 实 际 的 应 用 比较 广泛 ， 为 便于 理解 下 面 通过 3 个 实际 应 用 案例 进行 详 旨 
讲解 。 
[517.13]. 对 某 类 夏季 服装 生存 期 分 析 ，6 月 份 销售 情况 数据 如 表 7-13 所 示 。 


表 7-13 夏季 服装 销售 情况 


期 销 售 量 X À 期 销 售 E X À 
1 30 1 7 67 fi 
2 37 2 8 70 8 
3 42 3 9 32 9 
4 46 4 10 23 10 
5 48 5 11 10 11 
6 52 6 12 0 12 


data summer cloth; 


input t sale days; 


cards; 
1 30 1 
2 37 2 
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3 42 3 
4 46 4 
5 48 5 
6 52 6 
7 67 7 
8 70 8 
9 32 9 
10 23 10 
11 10 11 
12 0 12 


proc lifetest 


data-summer cloth method=KM  plots-(s); 


/*method-PL/KM/LT/LIFE/ACT 指定 生存 率 估 计 方 法 */ 


time  t*sale(0); 


族 必 须 语 句 ， 设 置 生存 时 间 变 量 和 上 4 


run; 


E 存 结局 变量 ， 括 号 内 为 删 失 值 */ 


程序 执行 后 输出 窗口 显示 如 图 7-18 一 图 7-20 所 示 。 


加 输出 - “无 标题 ) 
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NOTE: The marked survival times are censored observations. 


Quar 


Point 
Est imate 


3.5000 
6.5000 
3.5000 


Mean 


5.4167 


SAS JE 2012:E07 H 06H. 星 其 
FETEST Procedure 
mit Survival Estimates 

Survival 

Standard Number Number 
ilure Error Failed Left 

0 0 0 12 

0.0833 0.0798 1 11 
0.1667 0.1076 2 10 
0.2500 0.1250 3 3 
0.3333 0.1361 4 8 
0.4167 0.1423 5 了 
0.5000 0.1443 B B 
0.5833 0.1423 7 5 
0.6667 0.1361 8 4 
0.7500 0.1250 3 3 
0.8333 0.1076 10 ? 
0.3167 0.0738 1 : 


tile Estimates 

95 Confidence Interval 
Transform [Lower Upper) 
LOGLOG 5.0000 : 
LOGLOG 2.0000 10.0000 
LOGLOG 1.0000 5.0000 


Standard Error 


1.0076 


7-18. 乘积 极限 生存 估计 -寿命 表 
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BE - “无 标题 ) 
val time and its standard error were underestimated because the XT 
he estimation was restricted to the largest event time. 

Summary of the Number of Censored and Uncensored Yalues 


Percent 
Total Failed Censored Censored 


12 11 1 8.33 


图 7-19 终 检 值 和 非 终 检 值 概述 
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Legend: — —— Product-Limit Estimate Curve O O O Censored Observations 


图 7-20 生成 分 析 曲 线 图 


【程序 解读 】 
1) PROC lifetest data-summer cloth method-KM plots-(s): method=KM 指定 生存 率 估计 方法 。 
2) time t*sale(0): 必须 语句 ， 设 置 生存 时 间 变 量 和 生存 结局 变量 ， 括 号 内 为 删 失 值 。 
【分 析 结 果 解 读 】 
图 7-18 给 出 不 同日 数 的 生存 率 (Survival)、 死 亡 率 (Fauluer)、 生 存 率 的 标准 误 CSurvival 
Standard Error) 和 死亡 数 (Number Failed). 
7-19 所 示 服 装 退出 市 场 11， 终 检 1 件 服装 占 总 服装 数 12 的 8.33%. 
图 7-20 所 示 折 线 为 乘积 限 估 计 曲 线 ，“o” 表 示 终 检 观 测 。 
【 例 7.14】 对 例 7.13 通过 phreg 过 程 分 析 。 
data summer cloth; 


input t sale days; 
cards; 


30 1 
37 2 
42 3 
46 4 
48 5 
52 6 
67 7 


udo ta RUF. 一 
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9 32 9 

10 23 10 
11 10 1l 
12 0 12 
run; 


proc phreg data=summer cloth ; 
model t*days(12)=sale ; 
run; 
程序 执行 后 输出 窗口 显示 如 图 7-21 一 图 7-23 所 示 。 
ESE- “无 标题 ) 


The PHREG Procedure 


Model Information 


Data Set WORK . SUMMER. CLOTH 
Dependent Variable t 

Censoring Variable days 

Censoring Value(s) 12 

Ties Handl ing BRESLOW 


Number of Observations Read 
Number of Observat ions Used 
Summary of the Number of Event and Censored Yalues 


Percent 
Total Event Censored Censored 


1 8.33 


图 7-21 比例 风险 分 析 (一 ) 


回 输 出 - (无 标题 ) DEAR) 
^ 
Convergence Status E 
Convergence criterion (GCONV-1E-8) satisfied. 
Model Fit Statistics 

Without With 3 
Criterion Covariates Covariates - 

-2 LOG L 39.974 35.821 

AIC 39.974 37.821 
SBC 39.974 38.219 3 
B rm | 3 : 


E 7-22 ”比例 风险 分 析 〈 二 ) 


Ei 输出 - 无 标题 ) 


Testing Global Null Hypothesis: BETA=0 
Test Chi-Square DF Pr > ChiSq 
Like hood Ratio 


core 
Wald 


analysis of Maximum Likelihood Est imates 


Parameter Standard Hazard 
Parameter DF Est imate Error — Chi-Square Pr > ChiSq Ratio 


sale 1 0.03213 0.01704 3.5688 0.0583 1.033 
< m 


图 7-23 ”比例 风险 分 析 (三 ) 
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【程序 解读 】 

model  t*days(12)-sale: t 为 日 期 ，days(12) 为 终 检 变量 ， 终 检 值 为 12，sale 为 销售 量 。 

【分 析 结 果 解 读 】 

图 7-21 给 出 输出 模型 信息 : 数据 集 为 summer_cloth、 应 变量 以 及 自 变 量 的 名 称 ， 终 检 变 
量 取 值 为 12， 对 数据 处 理 用 BRESLOW 方法 ， 输 出 死亡 数 、 终 检 数 占 总 百分数 为 8.33%。 
图 7-22 所 示 为 输出 收敛 状态 ， 收 敛 标准 为 GCONV=1E-8 的 模型 符合 统计 量 、 有 变异 和 
无 变异 的 3 种 收敛 值 。 

图 7-23 所 示 为 输出 整体 无 效 假设 检验 : BETA=0，P 值 都 小 于 0.0589， 说 明 模 型 有 统计 
意义 。 


7.6 ” 聚 类 分 析 基 础 


聚 类 分 析 是 研究 事物 分 类 的 一 种 统计 方法 ,是 指 将 物理 或 抽象 对 象 的 集合 分 组 成 为 由 
类 似 的 对 象 组 成 的 多 个 类 的 分 析 过 程 。 它 是 一 种 重要 的 人 类 行为 。 聚 类 分 析 的 目标 就 是 在 
相似 的 基础 上 收集 数据 来 分 类 。 聚 类 源 于 很 多 领域 ， 包 括 数学 、 计 算 机 科学 、 统 计 学 、 生 
物 学 和 经 济 学 。 在 不 同 的 应 用 领域 ， 很 多 聚 类 技术 都 得 到 了 发 展 ， 这 些 技术 方法 被 用 做 措 
述 数 据 ， 衡 量 不 同 数据 源 间 的 相似 性 ， 以 及 把 数据 源 分 类 到 不 同 的 复 中 ， 根 据 数据 特征 ; 
行 的 分 类 研究 。 


7.6.1 聚 类 分 析 概 述 


聚 类 与 分 类 的 不 同 在 于 聚 类 所 要 求 划分 的 类 是 事先 未 知 的 。 聚 类 是 将 数据 分 类 到 不 同 
的 类 或 者 簇 的 一 个 过 程 , 同一 个 簇 中 的 对 象 有 很 大 的 相似 性 , 而 不 同 簇 间 的 对 象 有 很 大 的 相 
异性 。 
从 统计 学 的 观点 来 看 ， 聚 类 分 析 是 通过 数据 建 模 简 化 数据 的 一 种 方法 。 传 统 的 统计 聚 类 
分 析 方 法 包括 系统 聚 类 法 、 分 解法 、 加 入 法 、 动 态 聚 类 法 、 有 序 样品 聚 类 、 有 重 疮 聚 类 和 模 
糊 聚 类 等 。 采 用 k- 均 值 、k- 中 心 点 等 算法 的 聚 类 分 析 工 具 已 被 加 入 到 许多 著名 的 统计 分 析 软 
件 包 中 ， 如 SPSS、SAS 等 。 

聚 类 是 搜索 簇 的 无 监督 学 习 过 程 。 与 分 类 不 同 ,无 监督 学 习 不 依赖 预先 定义 的 类 或 带 类 标记 
的 训练 实例 ， 需 要 由 聚 类 学 习 算 法 自动 确定 标记 ， 而 分 类 学 习 的 实例 或 数据 对 象 有 类 别 标记 。 

从 实际 应 用 的 角度 来 看 ， 聚 类 分 析 是 数据 挖掘 的 主要 任务 之 一 。 聚 类 能 够 作为 一 个 独立 
的 工具 获得 数据 的 分 布 状况 ， 观 察 每 一 簇 数 据 的 特征 ， 集 中 对 特定 的 聚 簇 集合 作 进一步 的 分 
析 。 聚 类 分 析 还 可 以 作为 其 他 算法 〈 如 分 类 和 定性 归纳 算法 ) 的 预 处 理 步 又 。 

1. 聚 类 分 析 的 定义 

聚 类 分 析 是 依据 研究 对 象 〈 样 品 或 指标 ) 的 特征 ， 对 其 进行 分 类 的 方法 ， 减 少 研究 对 象 
的 数目 。 各 类 事物 缺乏 可 靠 的 历史 资料 ， 无 法 确定 共有 多 少 类 别 ， 目 的 是 将 性 质 相 近 的 事物 
归 入 一 类 。 各 指标 之 间 具 有 一 定 的 相关 关系 。 聚 类 分 析 是 一 组 将 研究 对 象 分 为 相对 同 质 的 群 
组 的 统计 分 析 技 术 。 

2. 聚 类 方法 


CD 层次 聚 类 (Hierarchical Clustering ) 
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层次 聚 类 方法 分 为 合并 法 、 分 解法 和 树 状 图 。 
(2) 非 层 次 聚 类 
非 层次 聚 类 分 为 划分 聚 类 和 谱 聚 类 。 


SAS 系统 常用 的 聚 类 过 程 有 CLUSTER 过 程 、FASTCLUS 过 程 、 


(1) CLUSTER 过 程 


CLUSTER 过 程 属于 对 指标 进行 系统 聚 类 ,对 应 原始 数据 以 欧 氏 距离 为 默认 的 员 
法 ,对 于 观测 值 之 间 的 距离 先 用 distance 过 程 将 数据 转换 成 相应 站 


TREE 过 程 和 VARCLUS 


Bp: 


gags 


过 程 的 结果 输出 到 数据 集 后 可 以 供 TREE 过 程 来 显示 树 图， 以便 更 


语法 格式 : PROC cluster method= 聚 类 方法 ”< 选项 列表 >; 
var ” 聚 类 用 变量 ; 
copy 复制 变量 ; 
id 变量 名 ; 
freq 变量 ; 
RUN:; 


【语法 解读 】 


1)〉method= 聚 类 方法 : 指定 聚 类 分 析 的 方法 ， 属 于 必须 项 。 


ni 


"m 


j 聚 类 方法 如 下 。 


averagelavg: 平均 连接 法 ， 若 不 指定 nosquare， 上 距离 数据 被 平方 。 


Ward|war: 最 小 方差 法 ， 大 不 指定 nosquare， 距 离 数 据 被 习 


下 
o 


em: 最 大 似 然 法 ， 对 球形 多 元 正 态 分 布 混 合 进行 最 大 似 然 估计 。 
Centroidlcen: 重心 法 ， 若 不 指定 nosquare， 距 离 数据 被 平方 。 


Mcquitylmcq: 加 权 平 均 连 接 法 。 
2) < 选项 列表 >: 常用 选项 如 下 。 
Data=: 指定 要 聚 类 的 数据 集 。 


BEBE 


方 


离 数 据 在 聚 类 ,CLUSTER 
象 地 显示 聚 类 过 程 。 


Outtree=: 创建 一 个 树 状 数 据 集 。TREE 过 程 可 以 把 CLUSTER 过 程 产生 的 OUTTREE = 数 


ME Z]v o 


Nosquare: 阻止 输入 数据 被 平方 。 


的 所 有 数值 型 变量 。 一 般 cluster 过 程 和 var 语句 是 必需 的 ， 


据 集 作 为 输入 ， 画 出 聚 类 谱系 图 ， 并 按照 用 户 指定 的 聚 类 水 平 〈 类 数 ) 产生 分 类 结果 数据 
P=: 指定 系统 聚 类 过 程 的 代数 ， 黑 认为 显示 所 有 代数 ， 如 果 指 定 p=0 会 抑 


集 


o 


判 聚 类 过 程 的 


4) copy < 复制 变量 >: 此 语句 指定 的 变量 将 被 复制 到 outtree= 语 句 指定 的 数据 集中 。 


5) id< 变 量 名 >: 对 应 outtree= 语 句 的 数据 集 ， 用 ID 变量 值 作为 标示 观测 。 


6) freq 变量 : 指定 频数 变量 。 
(2) FASTCLUS 过 程 
FASTCLUS 过 程 称 为 动态 聚 类 过 程 ， 又 称 为 快速 聚 类 ， 


3) var: 指定 用 来 进行 聚 类 分 析 的 变量 ， 省 略 此 语句 时 则 默认 为 没有 出 现在 其 他 语句 中 


余 都 为 可 选 。 


主要 用 于 大 样本 数据 的 聚 类 。 变 
量 之 间 以 欢 氏 距离 为 基础 对 数据 进行 分 机 ， 可 以 指定 分 类 的 最 大 数目 。 此 聚 类 过 程 以 迭代 思 
想 为 理论 基础 ， 先 对 样本 观测 粗略 分 类 ， 然 后 按 某 种 最 优 准则 逐步 修改 分 类 至 最 优 为 目 


Los Fx 


其 


适用 于 观测 量 大 的 数据 .在 FASTCLUS 过 程 中 必须 指定 maxclusters=( 最 大 凝聚 点 ) 或 randius= 


lim] 
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昌 集 作为 输入 ， 画 出 聚 类 谱系 图 ， 并 按照 用 户 指定 的 聚 类 水 平 〈 类 数 ) 产生 分 类 结果 数据 集 。 


提 定 凝聚 点 间 最 短 距 离 ) 选项 。 


语法 格式 : PROC  fastclus maxclusters=nlrandius=t< 选 项 列表 >; 
var ， 聚 类 用 变量 ; 
by 变量 表 ; 
id 变量 名 ; 
freq 变量 ; 
weight 变量 ; 
RUN; 
【语法 解读 】 
1) maxclusters=nl: 指定 最 大 “凝聚 点 ” 数 。 
2) randius=t: 指定 凝聚 点 间 的 最 短 距离 。 
3) weight 变量 : 指定 权重 分 析 变 量 。 
(3) VARCLUS 过 程 


VARCLUS 过 程 对 一 组 数值 变量 进行 系统 聚 类 ， 聚 类 的 选择 是 使 每 一 类 的 第 一 主 成 分 或 


者 重心 分 量 所 解释 的 变异 为 最 大 ， 属 于 一 种 减少 变量 的 方法 聚 类 。 


语法 格式 : PROC varclus < 选项 列表 >; 
var 聚 类 用 变量 ; 
seed 变量 表 ; 
partial 变量 表 ; 


by 变量 表 ; 
id 变量 名 ; 
freq 变量 ; 
weight 变量 ; 
RUN; 
【语法 解读 】 


1) < 选项 列表 >: 常用 选项 如 下 。 
Data-: 指定 要 聚 类 的 数据 集 。 
Outtree=: 创建 一 个 树 状 数据 集 .TREE 过 程 可 以 把 CLUSTER 过 程 产生 的 OUTTREE = 数 


控制 聚 类 常用 方法 选项 如 下 。 
Cov: 分 析 协 方差 矩阵 。 
Seed: 将 seed 语句 中 列 出 的 变量 作为 一 个 类 的 基准 分 类 。 
Hi: 不 同 层次 上 聚 类 构成 一 个 分 层 体系 结构 聚 类 。 
控制 聚 类 数 常用 选项 如 下 。 

Minc=n: 指定 最 小 分 类 数 ， 默 认为 2。 

Max=n: 指定 最 大 分 类 数 ， 默 认 值 为 变量 数 。 

控制 显示 输出 的 项 如 下 。 

Noprint: 不 打印 输出 结果 到 输出 窗口 。 

Trace: 跟踪 每 个 变量 被 分 类 的 过 程 。 
Summary: 给 出 最 后 的 总 结 表 ， 其 他 输出 被 抑制 。 


i—. 
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di 


2) seed 变量 表 : 指定 用 来 作为 初始 分 类 凝聚 点 的 变量 。 若 选项 了 seed 语句 ， 不 必 
initial-seed 选项 ， 如 果 指 定 了 initial=s 选项 ， 则 seed 语句 无 效 。 

3) partial 变量 表 : 指定 偏 相关 聚 类 分 析 变 量 。 

(4) TREE 过 程 

TREE 过 程 是 对 CLUSTER 聚 类 过 程 或 VARCLUS 聚 类 过 程 创 建 的 数据 
聚 类 的 结果 更 加 形象 。 

语法 格式 : PROC tree < 选项 列表 >; 


显示 树 图 ， 让 


x 


Name 变量 表 ; 
height ”变量 ; 
id 变量 ; 
freq 变量 ; 
by 变量 表 ; 
RUN; 
【语法 解读 】 


D < 选项 列表 >: 常用 可 取 选 项 如 下 。 
Data=: 指定 树 的 输入 数据 集 。 
Ou: 指定 输出 数据 集 。 
H= 变 量 : 指定 某 个 变量 作为 树 高 度 。 

Level=n: 指定 树 的 水 平 。 

2) Name 变量 表 : 指定 一 个 字符 或 者 数值 变量 ， 标 示 每 个 观测 节点 。 
3) height 变量 : 指定 一 个 数值 变量 ， 定 义 树 中 每 个 节点 的 高 度 。 


7.6.2 聚 类 分 析 应 用 


聚 类 分 析 的 应 用 领域 比较 广泛 。 它 是 研究 分 类 问题 的 一 种 多 元 统计 分 析 方 法 。 
【 例 7.15】 表 7-14 所 示 是 全 国 9 省 市 居民 2011 年 支出 情况 数据 汇总 资料 ， 主 要 涉及 生 


活 消费 支出 情况 的 8 个 指标 。 
表 7-14 全 国 9 省 市 居民 2011 年 支出 情况 数据 

地 K 食品 消费 Bod 医疗 花费 交通 和 通信 教 ” 育 
KE 1117.72 1 200.16 6 000.10 800.32 6 800.87 
北京 2 300.12 1 600.88 7 898.92 1 300.89 12 000.56 
吉林 1 020.00 780.08 5 456.21 678.21 4 000.32 
上 海 2287.15 1 889.23 835621 1 500.23 15 000.21 
江苏 1317.88 467.62 163.16 293.07 6 700.21 
浙江 1 838.57 798.88 326.12 496.86 8 900.96 
福建 1 408.54 430.14 136.40 306.06 7 680.09 
山东 1 100.13 560.97 1678.85 221.93 298.23 
FR 1 681.68 1 700.21 8 700.19 900.23 12 000.26 
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data diaocha; 

input diqu $  shipin house yiliao jiaotong education; 
cards; 
AGE 1117.72 1200.16 6000.10 800.32 6800.87 
北京 2300.12 1600.88 7898.92 1300.89 12000.56 
吉林 1020.00 780.08 5456.21 678.21 4000.32 
-Ei& 2287.15 1889.23 8356.21 1500.23 15000.21 
江苏 1317.88 467.62 163.16 293.07 6700.21 
浙江 1838.57 798.88 326.12 496.86 8900.96 
福建 1408.54 430.14 136.40 306.06 7680.09 
山东 1100.13 560.97 1678.85 221.93 298.23 
广东 1681.68 1700.21 8700.19 900.23 12000.26 


run; 

proc cluster data-diaocha standard method —ward 
outtree —jltree pseudo; 
copy diqu; 

run; 

proc tree data-jltree horizontal; 
id diqu; 

run; 


程序 执行 后 输出 窗口 显示 如 图 7-24 和 图 7-25 所 示 。 


Bà 输出 - (无 标题 ) 


The CLUSTER Procedure 
llard's Minimum Variance Cluster Analysis 


Eigenvalues of the Correlation Matrix 

Eigenvalue Difference Proport ion Cumulative 

4.08738535 3.37432278 0.8178 0.8176 

0.71356317 0.58785908 0.1427 0.3503 

0.12580403 0.07084762 0.0252 0.3855 

0.05435547 0.03736518 0.0110 0.3365 

0.01753031 0.0035 1.0000 
The data have been standardized to mean 0 and variance 1 
Root-Mean-Square Total-Sample Standard Deviation 1 


Root-Mean-Square Distance Between Observat ions 3.162278 


Cluster History 


--Clusters Joined--- FREG SPRSQ 


— M3 65 qs cn o» - c0 
£o Oo qe CO CÓ P2 MO Po 


图 7-24 CLUSTER 聚 类 分 析 


208 


FQ GRAPH1  WORK.GSEG. TREE1 [- | 


r T T T T T T T T T T T T T 1 
0.00 0.05 0.10 0.15 0.20 0.25 0.30 0.35 0.40 0.45 0.50 0.55 0.60 0.65 0.7C 


Semi-Partial R-Squared v 


7-25 ” 聚 类 分 析 树 


【程序 解读 】 

1) PROC cluster data =diaocha standard method =ward outtree =jltree pseudo: method =ward 
指定 选择 ward 方法 聚 类 ，pseudo 项 显示 为 F 及 t 的 平方 统计 量 。 该 选项 只 有 当 数 据 是 坐标 或 
method=ward、average、centroid 才 有 效 。 

2) copy diqu: 将 变量 diqu 复制 到 outtree= 指 定 的 数据 集中 。 

3) PROC tree data —jltree horizontal: horizontal 项 指定 树 的 高 度 轴 为 水 平方 向 ， 默 认为 
垂直 方向 。 

4) ID diqu: 指定 树 图 中 识别 对 象 。 

【分 析 结 果 解 读 】 
由 图 7-24 中 的 PSF 列 可 以 看 出 G=2 和 G=3 处 有 峰值 ， 因 此 分 为 2 类 或 3 类 最 好 。 由 
图 7-25 可 以 看 出 RSQ 变化 最 大 ， 从 0.946 变化 到 0.7， 可 以 看 出 分 为 2 类 最 好 。 


7.7 判别 分 析 基 础 
判别 分 析 (Discriminant Analysis) 是 一 种 进行 统计 鉴别 和 分 组 的 技术 手段 ， 是 根据 观测 
到 的 某 些 指标 对 研究 对 象 进行 分 类 的 一 种 统计 方法 。 
7.7.4. 判别 分 析 概 述 
判别 分 析 (Discriminant Analysis) 是 一 种 进行 统计 鉴别 和 分 组 的 技术 手段 。 判 别 分 析 是 
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断 它 属 于 哪个 总 体 。 


(1) 距离 判别 法 


民 据 已 知 样本 的 分 类 以 及 所 测 的 指标 ， 筛 选 出 能 够 提供 较 多 信息 的 指标 ， 从 而 建立 判别 方程 ， 


基本 思想 : 根据 已 知 类 别 的 样本 所 提供 的 信息 ， 总 
判别 准则 ， 根 据 判 别 函数 判别 新 的 样本 所 属 类 型 。 
常用 判别 方法 如 下 : 


距离 最 小 就 将 它 判 归 哪 个 总 体 。 


(2) Fisher 判别 法 


Fisher 判别 法 的 基本 思想 是 投影 ， 即 将 原来 在 R 维 


使 其 错 判 率 最 小 的 一 种 方法 。 根 据 判别 方程 ， 将 未 知 分 类 的 样本 指标 带 入 判别 方程 ， 从 而 判 


结 出 分 类 的 规律 性 ， 建 立 判别 公式 和 


距离 判别 最 直观 的 方法 是 根据 各 样本 与 母体 之 间 的 距离 远近 做 出 判别 属于 哪 一 类 ， 哪 个 


空间 的 自 变量 组 合 投影 到 维度 较 低 的 


D 维 空间 去 ， 然 后 在 D 维 空间 再 进行 分 类 。 投 影 的 原则 是 使 得 每 一 类 内 的 离 差 尽 可 能 小 ， 而 


不 同类 内 的 离 差 尽 可 能 


G) 页 叶 斯 判别 法 (Bayes) 


贝 叶 斯 判别 法 是 根据 先 验 概率 求 出 后 验 概率 ， 


g 个 类 别 都 是 空间 中 互 斥 的 子 域 , 每 个 观测 值 都 是 空 1 
利用 Baye 公式 按照 一 定 准则 构造 一 个 判别 函数 ,分 别 计算 该 样本 落 入 各 个 子 域 的 概率 ， 所 有 


概率 中 最 大 的 一 类 就 被 认为 是 该 样本 所 属 的 类 别 。 


(4) 逐步 判别 


并 根据 后 验 概率 分 布 给 出 统计 推断 ， 所 有 
司 中 的 一 个 点 , 在 考虑 先 验 概率 的 情况 下 


对 于 一 些 变量 使 用 判别 并 没有 什么 作用 ， 为 了 得 到 对 判别 最 合适 的 变量 ， 可 以 使 用 逐步 


判别 。 也 就 是 ， 一 边 判 别 ， 一 边 引进 判别 能 力 最 强 的 变 


SAS 系统 常用 的 判别 分 析 过 程 有 DISCRIM 过 程 和 STEPDISC 过 程 。 


1. DISCRIM 过 程 


量 ( 通 过 假设 检验 的 方法 )。 


DISCRIM 过 程 可 以 对 一 个 或 多 个 数值 变量 计算 线性 或 二 次 判别 函数 ， 对 观测 进行 分 类 。 
此 过 程 涉及 两 种 判别 方法 ， 参 数 判 别 法 和 非 参数 判别 法 。 
语法 格式 PROC discrim < 选项 >; 


RUN; 
【语法 解读 】 


class 变量 ; 
by 变量 表 ; 
freq 变量 ; 
id 变量 ; 
priors 概率 表 ; 
testclass 变量 ; 
testfreq 变量 ; 
testid 变量 ; 
var 变量 表 ; 
weight 变量 ; 


1) DISCRIM 过 程 语 句 中 常用 < 选项 > 如 下 。 
C 数据 集 选项 如 下 。 
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Data- 数 据 集 名 :指定 判别 分 析 的 数据 集 名 。 


TESTDATA= 数 据 集 名 : 指定 分 类 的 原始 数据 集 名 。 
outstat= 输 出 数据 集 名 : 指定 分 析 输 出 数据 集 选 项 ， 数 据 集中 包括 均值 、 标 准 差 、 相 关系 


Out 数据 集 名 : 指定 输出 数据 集 ， 包 括 data= 数 据 集中 的 所 有 观测 ， 以 及 每 个 观测 的 后 验 


概率 和 由 回 代 法 判别 后 的 类 别 。 


outcross= 数 据 集 名 : 指定 输出 数据 集 ， 包 括 data= 数 据 集 中 的 所 有 观测 ， 以 及 每 个 观测 的 
后 验 概 率 和 由 交叉 验证 法 判别 后 的 类 别 。 


testout= 数 据 集 名 : 生成 一 个 输出 数据 集 ， 包 含 来 自 TESTDATA= 数 据 集 的 所 有 数据 ， 以 


及 后 验 概率 和 每 个 观测 通过 交叉 确认 被 分 入 的 类 。 


Outd= 数 据 集 名 : 指定 输出 数据 集 包 括 data= 数 据 集 中 的 所 有 观测 ， 以 及 每 个 观测 指定 组 


的 密度 估计 。 


@ 选择 判别 分 析 类 型 的 选项 如 下 。 


METHOD=NORMAL: 指定 


METHOD-NORMAL 时 ， 基 于 类 内 服从 多 元 正 态 分 布 ， 并 


导出 线性 或 二 次 判别 函数 。 默 认 值 为 NORMAL。 


METHOD-NPAR: 指定 METHOD=NPAR 时 ， 属 于 非 参 数 法 ， 对 观测 进行 分 类 ， 估 计 指 


定 组 的 密度 。 


POOL=NOITESTIYES: 确定 平方 距离 的 度量 是 以 合并 协 方差 阵 还 是 组 内 协 方差 阵 为 基 


础 。 默 认 值 为 POOL=YES。 当 POOL=YES 时 ， 采 用 合并 协 方差 阵 得 出 线性 判别 函数 ， 当 


POOL-NO 时 ， 采 用 单个 组 内 协 方差 阵 得 出 二 次 判别 函数 ， 当 METHOD-NORMAL 时 ， 
POOL=TEST 要 求 对 组 内 协 方差 阵 的 齐 性 的 似 然 比 检 验 进 行 Bartlet 修正 。 
SLPOOL-P: 指定 齐 次 性 检验 的 统计 意义 水 平 。 默 认 值 为 0.10。 


© 指定 判别 标准 选项 如 下 。 


THRESHOLD-P: 分 类 时 可 以 接受 的 最 小 后 验 概率 〈0<p<1)， 通 过 此 选项 控制 成 员 观 测 
分 配 ， 对 于 组 成 员 的 最 大 后 验 概 率 小 于 THRESHOLD 指定 值 的 观测 被 分 配 到 other HP. ER 


认 值 为 0。 


QD 控制 显示 统计 信息 选项 如 下 。 
ALL: 所 有 控制 显示 输出 选项 。 
SHORT: 取消 显示 某 些 默认 的 输出 选项 。 


NOPRINT: 不 打印 显示 结果 到 输出 窗口 。 


© 相似 相关 和 矩阵 选项 如 下 。 


PCORR: 以 合并 的 类 内 相关 矩阵 显示 。 
BCORR: 以 类 间 相 关 和 矩阵 显示 。 

TCORR: 以 全 体 样本 相关 和 矩阵 显示 。 

WCORR: 对 每 个 分 类 水 平 以 类 内 相关 和 矩阵 显示 。 


© 交叉 确认 分 类 选项 如 下 。 


CROSSLIST: 对 每 个 观测 打印 交叉 确认 分 类 结果 。 
CROSSLISTERROR: 只 对 错误 分 类 的 观测 打印 交叉 确认 分 类 结果 。 


@ 检验 信息 和 统计 量 选 项 如 


he 
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MANOVA: 


SIMPLE: 显示 


输出 显示 检验 总 体 
ANOVA: 输出 显示 检验 各 类 假 
简单 统计 


STDMEAN: 输出 显示 整 
EAJ} 


2) priors 概率 表 : 


PRIORS EQUAL: 规定 
PRIORS PROPORTIONAL|PROP: 先 验 概率 正比 于 样本 容量 。 
对 分 类 变量 的 每 个 水 平定 义 一 人 
命令 testdata= 数 据 集 中 的 


PRIORS probabilities: 
3) testclass 变量 : 


被 错 分 。 


testdata 数据 集 


判别 有 


下 对 模型 中 判 另 


4) testfreq 变量 : 
5) testid 变量 : 


2. STEPDISC 过 程 


对 testdata= 选 项 指 
testid 语句 声明 仅 在 语 


假设 各 类 均值 相等 的 多 元 方差 分 析 。 
设 每 个 变量 总 体 均值 相等 的 单 变量 方差 分 析 。 
描述 信息 。 


本 样本 和 合并 的 各 类 内 标准 
间 定 各 组 中 成 员 出 现 的 先 验 概率 。3 
先 验 概率 相等 。 


化 分 类 均值 。 


:语句 如 下 。 


个 先 验 概率 。 


个 变量 ， 


以 确定 该 数据 集中 观测 是 否 


I5 


定 的 数据 集 变量 求 出 观测 的 频 度 。 
句 中 出 现 testlist 或 testlisterr 选项 时 才 有 效 。 显 示 
的 分 类 结果 时 ，testid 中 变量 值 将 取代 每 个 观测 序号 。 


STEPDISC 过 程 称 为 逐步 判别 过 程 分 析 ， 此 过 程 通过 向 前 先入、 向 后 剔除 或 逐步 选择 对 


(1) 向 前 选 入 法 


开始 时 模型 中 没有 变量 ， 每 
选 入 的 临界 值 时 ， 


向 前 
(2) 向 后 剔除 


] 的 定量 变量 来 完成 逐步 


一 步 贡 献 度 的 最 大 进入 模型 。 


选 入 过 程 停止 。 


开始 时 ， 所 有 


向 后 剔除 过 程 停止 。 


(3) 逐步 选择 


开始 时 如 同 向 前 选择 一 样 ， 


判别 分 析 。 变 量 根据 以 下 3 条 准则 之 一 选 入 或 剔除 模型 ; 


当 不 再 有 未 被 选 入 的 变量 小 于 


量 依赖 于 VAR 语句 中 的 变量 都 在 模型 中 。 
| 能 力 贡 献 最 小 的 变量 剔除 。 


模型 中 没有 变量 ， 每 一 步 都 被 检查 。 在 贡献 度 准 则 下 统计 量 


每 一 步 判 断 贡献 度 最 小 的 准则 


当 所 有 余下 的 变量 都 达到 留 在 模型 中 的 标准 时 ， 


对 模型 的 判别 能 力 贡 献 最 小 的 变量 达 不 到 留 在 模型 中 的 标准 ， 它 就 被 剔除 。 和 否则， 不 在 模型 
中 对 模型 的 判别 能 力 贡 献 最 大 的 变量 被 选 入 模型 。 当 模型 中 的 所 有 变量 都 达到 留 在 模型 中 的 
标准 而 没有 其 他 变量 能 达到 进入 模型 上 + 的 标准 时 ， 逐 步 选 择 过 程 停止。 
语法 格式 : 
STEPDISC 过 程 的 语句 : PROC stepdisc < 选项 >; 
class 变量 ; 
by 变量 表 ; 
freq 变量 ; 
var 变量 表 ; 
weight 变量 ; 
RUN; 
【语法 解读 】 
1) stepdisc < 选项 >: 该 语句 中 具有 的 常用 选项 如 下 。 
data= 数 据 集 名 : 指定 进行 判别 分 析 的 数据 集 。 
method-FW/BW/SW : 指定 选择 模型 中 变量 的 方法 :FORWARDCFW) BACKWARDCBW) 
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fll STEPWISE (SW). 
SLENTRY-|SLE- : 在 向 前 选择 方法 中 ， 指 定 选 入 变量 的 显著 性 水 平 。 
SLSTAY-|SLS- : 在 向 后 剔除 方法 中 ， 指 定 保留 变量 的 显著 性 水 平 。 默 认 值 为 0.15。 
PR2ENTRY -p|PR2E-—p: 在 向 前 选择 方式 中 ， 指 定 选 入 变量 的 偏 。 
PR2STAV-—p|PR2S—p: 在 向 后 剔除 方式 中 ， 指 定 保留 变量 的 偏 。 
Include=n: 对 var 语句 中 指定 的 变量 ， 前 n 个 变量 总 包含 在 模型 中 。 默 认 值 为 0。 
Maxstep=: 指定 选择 变量 最 大 的 步 数 。 默 认 值 为 var 语句 中 指定 的 变量 个 数 的 两 倍 。 
Stop=: 指定 最 后 模型 中 保留 的 变量 个 数 。 当 模型 变量 中 的 个 数 为 stop= 参 数 指定 的 变量 

个 数 时 ， 停 止 变量 选择 。 


出 | 


tcorr: 全 样本 相关 。 

wcorr: 类 内 水 平 相关 。 

Stdmean: 标准 化 类 均值 。 

2) class 变量 : 定义 分 析 组 变量 。 
7.7.2. ”判别 分 析 应 用 
在 医学 研究 和 疾病 防治 工作 中 ， 经 常会 遇 到 需要 根据 观测 到 的 资料 对 所 研究 的 对 象 进行 
分 类 的 问题 。 

【 例 7.16】 农业 样本 抽样 检验 ， 对 病菌 蔬菜 用 1 标识 ， 非 病菌 蔬菜 用 2 标识 ， 两 类 样本 
各 抽样 5 例 化 验 4 项 指标 ， 用 逐步 判别 法 对 10 个 样品 进行 判别 归 类 。 


data vegetable; 
input group vl-v4; 
cards; 
1 228 134 20 11 
1 245 134 10 40 
1 200 167 12 27 
117015078 
1 100 167 20 14 
2185115519 
217012564 
216514253 
2135108212 
210011772 
run; 
proc stepdisc  data-vegetable; 
/* proc stepdisc 逐步 判别 进行 变量 删 先 */ 
class group; /* 分 组 变量 */ 
var vl-v4;/*4) Bre &*/ 
run; 
Pj Eh E RRA AE RECTE (v2,v3,v4) */ 


proc discrim  data-vegetable list; 
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class group;/* 4) 2H AE & */ 
var v2 v3 v4/*TR3E STEPDISC 过 程 选择 出 的 变量 进行 变量 分 析 */ 


run; 
mi p um Ds amu à 二 之 
程序 执行 后 输出 窗口 显示 如 图 7-26 一 图 7-31 所 示 。 
Bah- (无 标题 ) - [ox] 
SAS IE 2012078 13H ERR ^ 
The STEPDISO Procedure 1 
The Method for Selecting Variables is STEPWISE E 
Total Sample Size 10 Variable(s) in the Analysis 4 
Class Levels 2 Variable(s) Will Be Included 0 
Significance Level to Enter 0.15 
Significance Level to Stay 0.15 
Number of Observations Read 10 
Number of Übservations Used 10 


Class Level Information 


Variable 
£roup Name Frequency Weight Proport ion 
T^ 2 5 5.0000 0.500000 
2. 2 5 5.0000 0.500000 vi 
€ €—  ——n — s ÜÁÓ—]Á 


Bà 输出 - 无 标题 ) 


The STEPDISC Procedure 
Stepwise Selection Summary 


Average 

Squared 

Part ial Wi Iks? Pr& Canonical 

Entered Removed — R-Square F Yalue Pr» F Lambda Lambda Correlation 


0.5557 « 0.0133 — 0.44431688 0.0133 0.55568312 
0.1023  0.23532778 0.0140 ^ 0.70467222 
0.1407  0.19353873 0.0160 ^ 0.80040127 


图 7-27 逐步 判别 法 选择 变量 信息 


BSb- (无 标题 ) 回回 因 
SAS KSÍ 2012078 13H ERR ^ 
The DISCRIM Procedure 
Total Sample Size 10 DF Total 3 
Yariables 3 DF Within Classes 8 
Classes 2 DF Between Classes 1 — 
Number of Übservations Read 10 
Number of Observations Used 10 
Class Level Information 
Variable Prior 
group Name Frequency Weight Proportion Probability 
1 -1 5 5.0000 0.500000 0.500000 
2 2 5 5.0000 0.500000 0.500000 
Pooled Covariance Matrix Information 
Natural Log of the 
Covariance Determinant of the 
Matrix Rank Covariance Matrix 
3 12.89623 x 
«| —l'— | 


图 7-28 判别 分 析 过 程 DISCRIM 分 析 (一 ) 
214 


Bi 输出 - 【无 标题 ) 


Posterior Probability of Membership i 


From Classified 
group into group 


=] 
c 
[2] 


Bib - (无 标题 ) 


Linear Discriminant Function for group 
Variable 1 2 


Constant -70.22180 -39.37012 
v2 0.77472 0.61414 
võ 0.85641 0.26873 
v4 0.60537 0.35507 


m2 m2 P2 P825 I8 — m — —— 
ccccc—cccc 
= e 9 s e 9 s.. 
一 一 一 一 一 一 一 一 上 一 和 一 J 
= e s e s s e.. 


O co co c0» cn 4» o5 n2 — 
M32 m2 MD MD MN — — — —— 


TS 


7-29 判别 分 析 过 程 DISCRIM 分 析 (二 ) 7-30 判别 分 析 过 程 DISCRIM 分 析 (=) 


Hà 输出 - (无 标题 ) 


Number of Observations and Percent Classified into group 


From group 2 Total 
1 5 
20.00 100.00 


5 5 
100.00 100.00 
Total 


4 B 10 
40.00 50.00 100.00 
Priors 0.5 0.5 


Error Count Estimates for group 
1 2 Total 


Rate 0.2000 0.0000 0.1000 
Priors 0.5000 0.5000 


— JU — 


图 7-31 分 析 过 程 DISCRIM 分 析 〈 四 ) 


【程序 解读 】 
1) PROC stepdisc data=vegetable: proc stepdisc 逐步 判别 进行 变量 删 选 ，data= 指 定 要 进行 
逐步 判别 分 析 的 数据 集 为 vegetable。 
2) class group: 指定 分 组 变量 。 
3) varvl-v4: var 语句 指定 分 析 变 量 为 vl、v2、v3 和 v4. 
4) PROC discrim data=vegetable list: 调用 判别 分 析 过 程 DISCRIM, list 选项 列 出 详细 


5) var v2 v3 v4: 根据 stepdisc 过 程 选 择 出 的 变量 进行 变量 分 析 。 
【分 析 结果 解读 】 
根据 STEPDISC 逐步 判别 进行 变量 删 选 ， 由 图 7-26 和 图 7-27 可 以 看 出 变量 v2. v3 和 


v4 被 选择 i 
行 分 析 。 可 以 看 出 这 3 个 变量 对 蔬菜 病菌 
进行 跟踪 。 


7.8. 客户 流失 分 析 案 例 


T3 


^ 
H2 


入 分 析 队 列 ， 然 后 运用 判别 分 析 过 程 DISCRIM 对 3 个 指标 变 


向 


三 | 
里 


v2. v3 fl v4 3E 
起 到 了 主要 的 作用 ， 应 严格 对 这 3 个 变量 指标 


行业 的 发 展 ， 国 外 和 国 
战 重要， 而 较 高 的 客户 流失 率 也 逐渐 成 为 管理 者 


俱 增 ， 信 用 


内 行业 内 的 竞争 压力 与 日 


随 着 外 资 银行 和 国内 信用 
风险 的 管理 和 客户 特征 的 研究 也 就 显得 越 来 
必须 面 对 和 认真 对 待 的 一 个 问题 。 

【 例 7.17】 根据 信用 卡 客 户 数据 分 析 客 户 流 失 原 因 。 


表 7-15 客户 流失 原因 表 


原 N 标识 
客服 服务 态度 差 1 
额度 低 2 
还 款 不 方便 3 
人 工 服务 不 到 位 ， 接 入 需要 很 长 时 间 4 
年 费 高 5 
积分 面值 低 6 
调 额 度 困 难 7 
* 对 外 部 数据 处 理 ; 


%let path= D:\jx\lius; 
%let type-.txt; 


I xg SUPHREGCTHE RR TE 


Volet fil- "&path&type"; 
libname jx'dXjx5 /定义 逻辑 库 */ 
data jx.lius;， 放 数据 集 存储 到 指定 逻辑 库 */ 
Infile &fil dim=' dsd missover; 
input bh :$4. 
type :l. 
times :3. 


run; 
proc discrim data=jx.lius list; 


type;/* 2) ?H2E f NVK 


class 


var  times;/*X times 投诉 次 数 分 析 */ 
run; 
程序 执行 后 输出 窗口 显示 如 图 7-32— 
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图 7-34 所 示 。 


Bi 和 输出 - 无 标题 ) 


The DISCRIM Procedure 


Total Sample Size 18 DF Total 
Variables 1 DF Within Classes 
Classes 7 DF Between Classes 


Number of Observations Read 18 
Number of Observations Used 18 


Class Level Information 


Prior 
Weight Proport ion Probability 


5.0000 0.277778 0.142857 

0.111111 0.142857 

0.388883 0.142857 
0.055556 0.142857 
0.055556 0.142857 
0.055556 0.142857 
0.055556 0.142857 


图 7-32 判别 分 析 类 信息 


区 输出 - 【无 标题 ) 


The DISCRIM Procedure 


Pairwise Generalized Squared Distances Between Groups 


2 EN s oo a 
D Gl) = œX- Xy cov (X-X) 

i j i 
Generalized Squared Distance to type | 
2 3 4 5 B 了 


| 
0.33261 0.00583 0.33261 0.33261 0.33261 0.33261 - 
0.33261 0 0.49465 0 0 0 0 
0.00589 0.49465 0 0.43465 0.43465 0.43465 0.43465 
0.33261 0 0.43465 0 0 0 0 
0.33261 0.43465 

0.33261 0.43465 

0.33261 0.43465 


Linear Discriminant Function 


- al 2j. 
Constant = -.5 ru DC X Coefficient Vector = COY X 
J J J 


Linear Discriminant Function for type 
1 2 3 4 5 B ? 


-0.57630 -0.10016 -0.66226 -0.10016 -0.10016 -0.10016 -0.10016 
0.48075 0.20031 0.51503 0.20031 0.20031 0.20031 0.20031 


K LU  , 汪 |.:: 


7-33 ”判别 分 析 函 数 分 析 应 用 
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BRE- (无 标题 ) - ex 
Number of Observations and Percent Classified into type - 
From type 1 2 3 4 5 B ? Other Total 
1 0 0 ? 0 0 0 0 3 
0.00 0.00 40.00 0.00 0.00 0.00 0.00 60.00 100.00 
2 0 0 0 0 0 0 0 2 
0.00 0.00 0.00 0.00 0.00 0.00 0.00 100.00 100.00 
3 1 0 2 0 0 0 0 4 
14.29 0.00 28.57 0.00 0.00 0.00 0.00 57.14 100.00 
4 0 0 0 0 0 0 0 1 
0.00 0.00 0.00 0.00 0.00 0.00 0.00 100.00 100.00 
5 0 0 0 0 0 0 0 1 
0.00 0.00 0.00 0.00 0.00 0.00 0.00 100.00 100.00 
6 0 0 0 0 0 0 0 1 
0.00 0.00 0.00 0.00 0.00 0.00 0.00 100.00 100.00 
7 0 0 0 0 ü 0 0 1 
0.00 0.00 0.00 0.00 0.00 0.00 0.00 100.00 100.00 
Total 1 0 4 0 0 0 0 13 18 
5.58 0.00 22.22 0.00 0.00 0.00 0.00 72.22 100.00 
Priors — 0.14285 0.14286 0.14288 0.14288 0.14286 0.14285 0.14286 
Error Count Estimates for type E 
1 r4 3 4 5 B ? Total 
Rate 1.0000 1.0000 0.7143 1.0000 1.0000 1.0000 1.0000 0.9592  — 
Priors 0.1423 0.1423 0.1423 0.1423 0.1423 0.1423 0.1423 ~ 
图 7-34 判别 分 析 各 类 型 观测 值 与 占 比 
口 i 
【程序 解读 】 


1) class type: 指定 分 组 变量 为 投诉 类 
2) vartimes: 对 times 投诉 次 数 分 析 。 
【分 析 结果 解读 】 


根据 收集 的 信息 卡 数据 进行 分 析 ， 判 别 分 析 类 信 ， 


如 图 7-32 所 示 。 判 别 分 析 函 数 分 析 应 月 


7-34 可 以 看 出 类 型 1 和 3 为 客户 流失 的 主要 原因 ， 


型 。 


息 类 型 为 1 和 3 的 频率 比较 高 ， 
目 可 以 得 到 判别 函数 式 ， 如 图 7-33 所 示 。 通 过 
因此 只 有 对 客服 服务 态度 差 和 还 


款 不 方便 两 个 因素 采取 措施 ， 才 能 挽留 住 客户 。 
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第 8 章 SAS 与 关系 数据 库 Oracle 交 互 应 用 


8.1 SAS 与 Oracle 交 互 基础 


SAS 与 关系 数据 库 的 连接 体现 了 SAS 与 其 他 数据 库 的 交互 应 用 能 力 ， 通 过 SAS/Access 
模块 建立 与 关系 型 数据 库 的 连接 , 提取 关系 数据 库 数据 , 生成 SAS 能 够 识别 的 数据 集 , 为 SAS 
其 他 模块 的 应 用 提供 数据 支撑 ， 建 立 了 连接 关系 数据 库 的 通道 。 业 界 应 用 中 大 量 的 数据 存储 
在 数据 库 库 中 ，Oracle 数据 库 是 大 型 数据 库 之 一 。 数 据 仓 库 提供 数据 支持 ，SAS 对 数据 仓库 
中 的 数据 进行 分 析 、 数 据 挖掘 、 报 表 开 发 等 。 


8.1.1 ”SAS 与 Oracle 数 据 库 连接 概述 


SAS 通过 SAS/Access 模块 建立 与 关系 数据 库 的 连接 , 通过 该 模块 可 以 读 取 关系 数据 库 里 
的 数据 ， 生 成 SAS 语言 能 够 识别 的 数据 集 ， 以 便 其 他 模块 运用 关系 数据 库 数据 进行 分 析 、 数 
所 挖掘 等 。SAS 语言 是 通过 逻辑 库 方式 连接 SAS 与 Oracle 的 数据 库 ， 此 处 的 逻辑 库 就 相当 于 
在 河上 面 建 的 一 座 桥 ， 河 的 一 边 是 SAS 系统 ， 另 一 边 是 关系 数据 库 ， 通 过 逻辑 库 这 座 桥 建立 
SAS 和 关系 数据 库 互 相通 信 的 通道 。 

为 帮助 读者 理解 SAS 与 关系 数据 库 如 何 建立 连接 通道 , 本 章 通 过 关系 数据 库 Oracle 来 进 
行 讲解 。Oracle 是 应 用 比较 广泛 的 关系 型 数据 库 ， 在 大 数据 量 存储 中 作为 数据 仓库 的 基础 数 
据 库 ， 其 功能 强大 。 表 可 以 通过 SAS 逻辑 库 来 指向 Oracle 数据 库 中 的 表 ， 这 样 就 建立 了 一 个 
和 数据 库 连 接 的 通道 。 

Oracle 数据 库 中 的 数据 存储 形式 是 一 张 关 系 二 维 表 ， 如 图 8-1 所 示 。 


dà D 


[NAME [ENGLISH [CHINESE — | MATH 
>| 110002 马 小 明 68 
[2/10001 刘 小 红 78 


图 8-1 Oracle 数据 库 表 存储 数据 形式 

【 例 8.1】 读 取 Oracle 数据 库 中 的 一 张 custinf 表 ， 建 立 数据 集 custin， 登 录 数 据 库 的 用 户 
名 user=chiran， 密 码 password=chiran， 数 据 库 实 例 path=orcl。 

程序 如 下 : 


libname jx oracle user=chiran password=chiran path=orcl; 
data custinf: 


set jx.custinf; — /*set 语句 读 取 数据 库 中 的 表 ， 逻 辑 库 名 .数据 库 中 的 表 名 */ 


run; 
【程序 解读 
1) libname jx oracle user-chiran password-chiran path-orcl;: 数据 库 引 擎 为 Oracle，user= 用 户 
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名 ，password= 密 码 ，path= 数 据 库 实 例 。 
2)set jx.custinf;: set 语句 读 取 数据 ,jx 是 连接 Oracle 数据 库 的 逻辑 库 名 , custinf 为 Oracle 
关系 数据 库 中 的 表 名 。 


8.1.2 SAS 获 取 Oracle 数 据 


SAS 获取 其 他 关系 数据 库 数据 首先 要 建立 通信 通道 ，SAS 语言 建立 与 Oracle 数据 库 的 连 
接 方式 的 通信 通道 可 以 通过 创建 逻辑 库 或 定义 宏 变 量 两 种 方式 。 

G) 逻辑 库 连 接 数据 库 语法 

LIBNAME 逻辑 库 名 ORACLE USER= 登 录 数 据 库 用 户 名 ”PASSWORD= 登 录 数 据 库 
密码 PATH= 数 据 库 实 例 ; 

【 例 8.2】 建 立 逻 辑 库 名 为 test, 连接 Oracle 数据 库 , Oracle 数据 库 登 录 的 用 户 名 为 chiran， 
密码 为 chiran， 数 据 库 实例 为 orcl。 


libname test oracle user=chiran password=chiran path=orcl; 
【程序 解读 】 

test 为 逻辑 库 名 ，Oracle 为 数据 库 引 擎 ，user=chiran 为 指定 连接 关系 数据 库 的 用 户 名 ， 
password=chiran 为 指定 连接 关系 数据 库 的 密码 ，path=orcl 为 指定 连接 关系 数据 库 的 实 
例 名 。 

(2) 定义 宏 变量 连接 数据 库 语 法 

%let 宏 变量 名 =user= 登 录 数 据 库 用 户 名 password= 登 录 数 据 库 密码 path= 数 据 库 实例 ; 

【 例 8.3】 对 例 8.2 通过 定义 宏 变 量 的 方式 建立 关系 数据 库 连 接 通道 , 宏 变 量 名 为 test_cnt。 


%let test cnt-user-chiran password=chiran  path-orcl; 
族 定 义 宏 变 量 ， 建 立 与 数据 库 连接 的 变量 */ 
【程序 解读 】 
%let: 定义 宏 变 量 语句 关键 字 ，test_cnt: 定义 的 宏 变 量 名 。 
【 例 8.4】 客户 销售 数据 存储 在 Oracle 数据 库 表 sale 中 ， 请 取出 北京 市 的 数据 ， 生 成 数 
据 集 sale_beijing。 
该 实验 的 具体 步 又 如 下 : 
1) 首先 在 Oracle 数据 库 中 创建 表 sale， 创 建 表 语句 如 下 : 


-- Create table 
create table sale 
( 
empno NUMBER(4) not null, 
diqu VARCHAR2(10), 
sal NUMBER(7,2), 
deptno NUMBER(2) 
) 


Tablespace users; 
2) 向 表 sale 插入 数据 ， 脚 本 如 下 : 
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Insert into sale values(1001, 北 京 市 ,12876.23,10); 
Insert into sale values(1002, 上 海 市 ,26872.87,12); 
Insert into sale values(1003, 天 津 市 ,39871.86,13); 
Insert into sale values(1004,' 山 东 省 ',55873.62,15); 
Insert into sale values(1005,' 河 北 省 ",65879.29,16); 
commit; 


3) SAS 程序 如 下 : 


*SAS 程序 提取 Oracle 数据 库 表 Sale 中 销售 地 区 为 北京 的 数据 ， 生 成 SAS 数据 集 sale_beijing; 
libname jx oracle user-chiran password-chiran path=orcl; 

/* & Yr. Ej Oracle ittis PEXEBEITXE AR Be */ 
libname jxsj  'd:\jx';/* Z S e OP ARP] 
data jxsj.sale beijing; 
set jx.sale (where-(diqu LIKE ' 北 京 %")); 
人 读数 据 库 中 的 表 sale， 把 北京 地 区 的 读 取出 来 */ 


run; 
【程序 解读 】 


set jx.sale (where=(diqu LIKE ' 北 京 %'));: 读 取 Oracle 数据 库 表 sale, where 语句 为 过 滤 
条 件 ， 取 diqu 字段 ， 通 过 模式 匹配 like 语句 取出 “北京 ”地 区 的 信息 。 
【 例 8.5】 通过 SQL 过 程 ， 向 Oracle 数据 库 表 sale 插入 一 条 记录 。 
* 向 ORACLE 数据 库 表 插 入 数据 ; 
libname jx ORACLE user=chiran password-chiran  path-orcl; 
PEZE, EF Oracle 数据 库 */ 
* 调 用 SQL 过 程 ; 
proc sql noprint; 人 # 调 用 过 程 SQL 进行 处 理 */ 
insert into jx.sale (empno,diqu,sal,deptno) values(1006, 广 东 省 ,531233.67,19); 
/# 通 过 insert into 语句 向 Oracle 数据 库 插入 记录 */ 
quit; 放 结 束 程序 */ 
【程序 解读 】 
通过 调用 SQL 过 程 ，SAS 程序 执行 INSERT INTO 语句 向 表 中 插入 想 要 的 记录 数据 。 
【提示 】 SQL 过 程 可 以 实现 与 关系 数据 库 SQL 语句 的 交互 ， 建 议 读者 学 习 关 系数 据 库 
SQL 语句 。 
【 例 8.6】 清空 Oracle 数据 库 表 saletest。 
* 清 空 关系 数据 库 ORACLE 中 的 表 saletest; 


%let jx_cnt=user=chiran password-chiran path-orcl; /# 创 建 连 接 数据 库 的 宏 变量 #/ 
proc sql noprint; 


connect to  oracle(&jx cnt); 
execute (truncate table  saletest) by oracle; 
disconnect from oracle; 
quit; 


【程序 解读 】 
1) %let jx cnt-user-chiran password-chiran path=orcl;: 定义 创建 连接 数据 库 的 宏 变量 。 


Tit 


2) connect to oracle (&jx cnt);: 连接 Oracle 数据 库 语句 。 
3) execute (truncate table saletest) by oracle;: 通过 execute 语句 执行 truancate table 语句 
清空 表 saletest。 


4) disconnect from oracle;: 断 开 与 Oracle 数据 库 的 
5) quit: SQL 过 程 的 退出 语句 为 quit。 


连 


连接 。 


【提示 】 本 例 是 SQL 过 程 与 Oracle 数据 库 连 接应 用 的 另 一 种 方式 ， 此 过 程 可 以 执行 关系 
数据 库 SQL 的 基本 操作 语句 。 
【 例 8.7】 删除 Oracle 数据 库 表 sale beijing 中 diqu 字段 为 北京 的 数据 。 
* 根 据 条 件 删 除 符合 条 件 的 记录 数据 ， 关 系数 据 库 ORACLE 中 的 表 sale beijing; 
%let jx cnt-user-chiran password=chiran path=orcl; /* 创 建 连接 数据 库 的 宏 变 量 */ 
proc sql noprint; 
connect to  oracle(&jx cnt); 


execute ( delete from sale beijing 
where diqu LIKE ' 北 京 %') by oracle; /#* 删 除 diqu 字段 为 北京 的 数 
from oracle; 


ul 
disconnect 
quit; 
【程序 解读 】 
execute ( delete from sale beijing where diqu LIKE ' 北 京 %) by oracle;: 删除 diqu 字段 为 “ 北 


京 ” 的 数据 ， 通 过 where 条 件 语 句 和 like 模式 匹配 的 应 用 删除 符合 条 件 的 数据 。 
【 例 8.8】 查询 Oracle 数据 库 交 易 表 trans. jl P EI B873 2012-08-01 的 交易 数据 信息 。 
该 实验 的 具体 步 又 如 下 : 
1) 首先 在 Oracle 数据 库 创 建 表 sale， 创 建 表 语 句 如 下 : 


-- Create table 


create table 


( 


empno 


trans jl 


number(4) not null, 
varchar2(10), 
number(7,2), 
deptno — number(2), 
trans dt date 


) 


Tablespace users; 


diqu 
sal 


2) 向 表 sale H 


insert into 


insert into 
insert into 
insert into 
insert into 
insert into 


commit; 
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Fi 入 数据 ， 脚 本 如 下 : 


trans jl _ values(1001,' 1E st ij 
trans jl values(1002, 上 海 市 


1',12876.23,10,to date(29-07-2012', 'dd-mm-yyyy)); 
':26872.87,12,to date(28-07-2012', 'dd-mm-yyyy?)); 


trans jl values(1003, 28 15',39871.86,13,to. date(26-07-2012", 'dd-mm-yyyy")); 
trans jl values(1004,'111 25 43',55873.62,15,to. date(25-07-2012", 'dd-mm-yyyy")); 
trans jl values(1005,' 河 北 省 ',65879.29,16,to_date('01-08-2012', 'dd-mm-yyyy")); 
trans jl values(1006,' 广 东 省 ',95872.88,18,to_date('01-08-2012', 'dd-mm-yyyy")); 


3) SAS 程序 如 下 : 


* 查 询 ORACLE 数据 库 交 易 表 trans. jl 中 日 期 为 2012-08-01 的 交易 数据 信息 。 


libname jx oracle user-chiran password-chiran path-orcl; 


proc sql; 


select * from jx.trans jl 


K jxfpb 


where trans dt-(select bksj from jx.jxfpb);/* iR} 


存储 的 是 时 间 字 段 bksj*/ 


quit; 


行 后 输出 窗口 显示 如 图 8-2 所 示 。 


程序 执 


【程序 


where trans_dt=(select bksj from jx.jxfpb);: 查询 语句 组 合 应 用 ， 
出 时 间 。 此 翻盘 表 存 储 的 时 间 为 2012-08-01， 每 天 跑 批 时 自动 更 新 。 
和， 在 业界 经 常 应 用 这 种 处 理 方式 ， 此 表 每 天 跑 


翻盘 表 jxfpb 来 控 
此 处 重点 学 习 翻 盘 表 jxfpb 的 应 月 


【提示 】 


加 萄 出 - (无 标题 ) 


DEPTNO 


1005 河北 省 65879.29 01AUG2012:00:0 


1008 广东 省 95872.88 014UG2012:00:0 


8-2 ”交易 时 间 为 2012-08-01 的 数据 信息 


解读 】 


批 时 自动 更 新 。 
8.1.3 SAS 装 载 数据 到 Oracle 数 据 库 


实际 的 业界 开发 中 把 来 自 外 围 的 数据 装载 到 大 型 数据 库 中 存储 ， 处 理 数据 装载 的 
为 ETL 过 程 。 一 般 的 处 理 步 又 如 下 : 


(D #4 
的 数据 ， 这 

@ 对 4 
标 表 中 。 


E 对 外 部 送 过 来 的 数据 进行 处 理 


EE， 转换 成 SAS 能 够 处 到 


i trans dt 交易 时 间 查 询 符合 条 件 的 数 # 


0:00 
0:00 


where 语句 中 借用 


的 数据 集 ， 生 成 符合 
一 过 程 可 以 对 外 部 数据 文件 进行 过 滤 ， 转 换 生 成 符合 条 件 的 数据 集 。 
成 的 SAS 数据 集 通 过 SAS 内 部 的 APPEND 过 程 装载 到 Oracle 数据 库 对 应 的 目 


【 例 8.9] 外 部 数据 文件 存储 在 “di\jx\ jx fewj.dat”， 请 装载 到 Oracle 数据 库 
jx append inf 中 。 


* 


部 数据 处 理 ， 生 成 SAS 数据 全 


Tit 


libname jx oracle user-chiran password-chiran  path-orcl; 
%let fl-dxyx fgwj.dat; 
%let filjx — "&fl"; 

Data  appendinf ; 


Infile  &filjx dm=| 1recl-389 dsd  missover firstobs-l 


input id :$8. 


type :$3. 


obs-3 ; 


n, m 


xr 


过 程 称 


条 件 


目标 表 
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Ixh :$32. 


Ix nane :$40. 
c type :$3. 

ex ins :$30. 
sf :$1. 
sfs :$1. 
vf :$1. 
blk :$1. 
sfmo :$1. 
sfzh :$1. 
dte rq :yymmdd10. 
crlimit :20.2 
using :20.10 
pdc :20.10 
pdd :20.10 
Score c :202 
score d :20.2 
Score scale :$6. 

r increase :$4. 

] increase :202 

S c per :20.2 
Ss c tem :20.2 
Score re code :$3. 
score dt :$8. 

h re f :$1. 

h ref c :$6. 
debrecord :$20. 


run; 
* 生 成 的 SAS 数据 集 appendinf 装载 到 ORACLE 数据 库 目 标 表 jx_append_inf; 
proc append  base-jx.jx append inf 


( bulkload-no 


dbsastype-( 

dte rq -DATE' 
crlimit -—NUMERIC' 
using -—NUMERIC' 
pdc =NUMERIC 
pdd =NUMERIC 
Score c —NUMERIC' 
score d —NUMERIC' 
l increase -NUMERIC' 

S c per —NUMERIC' 
s c tem —NUMERIC' 
) 

nullchar-NO /* 告 诉 SAS 系统 缺失 值 是 以 NULLCHARVAL= 指 定 值 替 换 */ 
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nullcharval-" " 
) 
data-appendinf; 
run; 


程序 执行 后 查询 Oracle 数据 库 目标 表 jx_append_inf， 数 据 信息 部 分 截图 如 图 8-3 所 示 。 


H- & la] [5] x4 8 Sa- 

[iD [TYPE [OH [O NANE [|C.TYPE [EX ]]NS [SF [SFS ]VF [Bk [SFMO [SFZH [DTERQ  - 

| 1120111231 123 1234580406647698 XI 小 红 ~ 100 130621198345040664 — 1 — 0 0 0 200758 ~ 
2|20111231 245 2236071532747168 二 | 马 小 明 “二 100 110125198345153274 — 1 0 1 0 20111145 ~ 
[3|20111231/567 3128081555313257 -phi = 100 120223198345155531 — 1 (0 0 0 20071025 * 


图 8-3 jx append inf 表 数 据 信 息 


【程序 解读 】 

1) Infile  &filjx dlm-'' lrecl=389 dsd  missover firstobs=1 obs=3 ;: infile 语句 读 
取 外 部 数据 ，firstobs=1 表示 从 第 一 条 记录 取 ， obs-3 表示 取 到 第 三 条 记录 结束 。 
2) proc append base=jx.jx_append inf : 通过 APPEND 过 程 装 载 数据 到 目标 表 jx. append 


inf. 


3) bulkload-no: 调用 SAS 系统 的 SAS/Access 模块 动态 逻辑 库 引 擎 装载 数据 到 Oracle 表 中 ; 
如 果 bulkload=yes， 则 调用 Oracle 的 SQL*LOADER 方式 装载 。 
4) dbsastype=: 若 数据 库 中 所 要 装载 的 表 的 变量 为 数值 类 型 和 日 期 类 型 ， 则 必须 通过 该 
语句 指定 数据 类 型 ， 通 过 SAS 系统 告诉 Oracle 数据 库 变 量 对 应 的 类 型 。 
5) nullchar-no: 此 语句 告诉 SAS 系统 缺失 值 是 以 NULLCHARVAL= 指 定 值 蔡 换 。 
6) nullcharval=" ": 缺失 值 用 空 值 蔡 换 。 
7) data=appendinf;: 指定 要 装载 的 数据 和 


8.1.4 _ Oracle 数据 解数 到 外 部 数据 文件 


SAS 系统 强大 的 功能 还 在 于 与 数据 库 的 交互 能 力 ， 通 过 逻辑 库 就 可 以 建立 与 数据 库 连 接 
的 桥梁 。SAS 5 Oracle 数据 库 建 立 好 连接 通道 ， 可 以 对 数据 库 里 的 数据 进行 处 理 ， 就 像 处 理 
数据 集 一 样 。 对 于 把 数据 库 里 表 数 据 解数 到 指定 目录 文件 和 处 理 数 据 集 的 方式 一 样 ， 需 要 先 
建立 SAS 与 Oracle 数据 库 的 连接 通道 ， 其 他 处 理 方式 都 一 样 。 
具体 实现 步骤 如 下 : 

1) 建立 SAS 与 Oracle 数据 库 的 连接 通道 。 

LIBNAME 逻辑 库 名 ORACLE USER= 登 录 数 据 库 用 户 名 PASSWORD= 和 登录 数据 库 密 
码 PATH= 数 据 库 实例 ; 
【注意 】 Oracle 中 所 登录 的 数据 库 叫 实例 ， 即 用 户 登 录 的 数据 库 名 。 
20 解数 到 指定 目录 文件 和 处 理 DAT 解数 方式 一 样 ， 只 是 需要 通过 逻辑 库 引 入 数据 库 中 
的 表 。 

【 例 8.10】 Oracle 数据 库 表 数 据 输出 到 文件 ， 取 JX_APPEND INF 表 中 type 为 123， 保 
留 字段 it、type、lx_nane、dte rd 和 crlimit， 输 出 到 存储 路 径 文件 “d:\jx\ appendinf123.dat”。 


Am 
o 


c 


libname jx oracle user-chiran password-chiran  path-orcl; 
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rs 


Volet jx connect-user-chiran password-chiran path-orcl; 


人 # 建 立 与 Oracle 数据 库 连接 的 逻辑 库 */ 


Volet lj='d:\jx\appendinf123 


proc sql noprint; 


create table tmp( 
id 

type 

Ix nane 

dte rq 

crlimit 


); 


dat; EMI H KAIAFA RRE CSI 


char(8), 
char(3), 
char(40), 
char(8), 
char(20) 


Connect to oracle (&jx_connect); 


Insert into tmp 


Select * from connection to oracle 


( select 
id, 
type , 
Ix nane, 


to char(dte rq,'yyyymmdd?, 
to char(crlimit,'0999999999999999D00!) 


/* 数 据 库 中 此 字段 182. 


整数 位 占 15 位 ， 小 数 点 占 一 位 ， 两 位 小 数 ， 先 转换 为 字符 ， 并 对 小 数 


指定 位 数 ，9 表示 整数 位 ，D00 表示 小 数位 ， 两 个 零 表 示 两 位 小 数 */ 
from JX APPEND INF where type-'1235; 


oracle; 


file &lj lrecl-84; /*file 语句 把 数据 写 入 到 指定 目录 的 文件 中 */ 


disconnect from 
quit; 
data null ; 
set tmp; 
put (Ql id 
(09 ' 
(210 type 
(213 1 
(214 lx nane 
(054 ' 
(55 dte rq 
(263 1 
(264  crlimit 
(984 1 
run; 
【程序 解读 】 


$8. | /*PUT 语句 把 表 数 据 输出 到 外 部 文件 */ 


$3. 


$8. 


$20. 


1) Oracle 数据 库 的 数据 表 中 含有 时 间 类 型 和 数值 类 型 的 字段 ， 需 要 先 通 过 SQL 语句 处 
E， 生 成 符合 规范 的 数据 ，to_char(dte_rq,yyyymmdd'") 把 时 间 类 型 dte rq 字段 转换 为 字符 类 型 
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的 yyyymmdd 格式 。 


2) to char(crlimit,9999999999999999D00"); 对 数据 库 中 字符 为 数值 类 型 的 要 进行 转换 ， 
数据 库 中 crlimit 字段 18.2， 整 数位 占 15 位 ， 小 数 点 占 一 位 ， 两 位 小 数 ， 先 转换 为 字符 ， 并 对 
小 数 指定 位 数 ，9 表示 整数 位 ，D00 表示 小 数位 ， 两 个 零 表 示 两 位 小 数 。 


3) 数据 步 data null ;中 通过 file 语句 和 put 语句 把 数 所 
打开 生成 的 d:\jx\ appendinf123.dat 文 伯 


appendinf123.dat 


10) 
1 20111231]| 123 | XI|/N£T. 


【提示 】 这 里 用 


【 例 8.11】 对 例 8.10 进行 改造 ， 解 数 文件 加 入 表 头 信息 “客户 销 


20 30 40, 50, 


图 8-4 appendinf123.dat 解数 文件 显示 数据 信息 


60 
120070508 


四 输出 到 指定 的 文件 中 。 
EF， 如 图 8-4 所 示 。 


70 80 
3000.00] 


到 了 SQL 过 程 生成 临时 数据 集 , 并 对 日 期 和 数值 字段 通过 函数 进行 转换 。 


数 数据 到 文件 dNjxappendinfbt.dat。 


libname jx oracle user-chiran password-chiran path=orcl; 


Volet jx connect-user-chiran password-chiran path-orcl; 


/# 建 立 与 Oracle 数据 库 连 接 的 逻辑 库 光 


%let lj=d:y 


x\appendinfbt.dat; /建立 指向 目录 的 文件 路 径 的 宏 变 量 */ 


proc sql noprint; 


create 
id 
type 
lx_nane 
dte rq 
crlimit 


E 


Connect 


table tmp ( 
char(8), 
char(3), 
char(40), 
char(8), 
char(20) 


to oracle (&jx connect); 


insert into tmp 


select * 


from connection to oracle 


( select 


id, 
type , 


Ix nane, 


to char(dte rq,'yyyymmdd?, 
to char(crlimit,0999999999999999D00") 


POR Pen 


FP 此 字段 182, 793 16 7g, Phu, 7) 


整数 位 ，D00 表示 小 数位 ， 两 个 零 表 示 两 位 小 数 */ 
from jx append inf); 


售 数据 ” 然后 输出 解 


E 转 换 为 字符 ， 


对 小 数 指定 位 数 ，9 表示 
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disconnect from oracle; 
quit; 
PEE f EMERICUS S 
data — null ; 
file 'd: jx appendinfbt.dat'; 
put & Pj guis: 
run; 
Plo s EERE SC S 


data — null ; 


set tmp; 
file &lj lrecl-84 mod; 
/*mod 参数 应 用 ， 追 加 不 覆盖 */ 


put (l id $8. | /*PUT 语句 把 表 数 据 输出 到 外 部 文件 */ 
@9 T 
@10 type $3. 
(13 '' 
(Q14 lx nane $40. 
(054 'J 
(55 dte rq $8. 
(263 '' 
(264  crlimit $20. 
(084 '| 
run; 
【程序 解读 】 


1) data null ; 


file 'd: jx appendinfbt.dat'; 
put ' 客 户 销售 数据 '; 
run; 
数据 步 语句 先 通 过 PUT 语句 写 表 头 信息 到 数据 文件 。 
20 第 二 个 数据 步 通过 语句 file &lj lrecl=84 MOD; 中 加 入 MOD 参数 把 Oracle 数据 库 数 
据 解 数 到 指定 文件 ， 此 参数 只 是 在 原来 生成 的 数据 文件 后 面 追 加 数据 ， 不 覆盖 原 数据 文件 。 
打开 生成 的 d: jx V appendinfbt.dat 文件 ， 如 图 8-5 所 示 。 


appendinfbt .dat 


2 20111231| 123| 刘 小 红 120070508| 3000.00| 
3 20111231|245| 马 小 明 120111115| 5000.001 
4 20111231| 567| 杨 小 华 


1200710251 1000.001 


DS 


8-5 appendinfbt.dat 数据 显示 


8.1.5 条 件 过 滤 取 Oracle 数 据 库 中 的 数据 


优秀 的 过 滤 程 序 可 以 快速 地 从 数据 库 中 提取 有 效 的 数据 ， 从 而 为 分 析 做 准备 。 
【 例 8.12】 提取 风险 表 xdrish 数据 中 工作 类 型 为 “Other”， 且 好 客户 标志 为 “1” 的 数据 ， 
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生成 数据 集 goodtype。 


Vomacro fetch(v type,v good); 

libname jx oracle user-chiran password-chiran path-orcl; 
libname csj 'dijx; /* 建 立 指向 目录 的 文件 路 径 的 宏 变 量 */ 
data csj.goodtype ; 


set jx.xdrish; 

where job type-"&v type" and good bad custer-&v good; /* fit] */ 
run; 
%mend; 
%fetch(Other,1); /* 宏 过 程 调用 */ 


【程序 解读 】 
1)%macro fetch(v type,v good);: 通过 宏 过 程 实现 , 定义 宏 过 程 名 为 fetch, 2:752 v. type 
为 工作 类 型 ，y_good 为 好 客户 标志 。 
2) set jx.xdrish;: 读 取 Oracle 数据 库 中 的 数据 表 xdrish。 
3) where job type-"&v type" and good bad custer-&v good;: 通过 WHERE 语句 实 


SUR 


FRE. And 表示 且 的 意思 ， 把 两 个 条 件 都 满足 的 数据 取出 来 ， 生 成 数据 集 goodtype. 


4) %fetch(Other,1);: 宏 过 程 调 用 ， 传 递 实 参 Other 和 1 分 别 给 形 参 。 


[518.13] 对 例 8.12 进行 改造 ， 通 过 IF 语句 实现 过 滤 。 


Vomacro fetchif(v type,v good); 

libname jx oracle user-chiran password-chiran  path-orcl; 
libname csj 'dijx; /* 建 立 指向 目录 的 文件 路 径 的 宏 变 量 */ 
data csj.goodtypeif ; 


set jx.xdrish; 

if job type-"&v type" and good bad custer-&v good;/* 查 询 条 件 */ 
run; 
%mend; 
Vofetchif( Other, 1); 


【程序 解读 】 

if job type-"&v type" and good bad custer-&v good; : 通过 正 语句 过 滤 。 

【提示 】 WHERE 语句 与 下 语句 都 能 实现 条 件 过 滤 , fH WHERE 语句 效率 高 , 批量 提取 ; 
IF 语句 是 一 条 条 提取 。 因 此 建议 能 用 WHERE 语句 过 滤 就 不 要 用 IF 语句 过 滤 。 

【 例 8.14】 提取 交易 表 trans jl 中 日 期 为 2012-08-01 的 数据 ， 生 成 数据 集 trans20120801, 


供 其 他 部 门 分 析 数 据 时 用 。 


%macro trans; 
libname jx oracle user=chiran password-chiran path=orcl; 
proc sql noprint; 
select bksj format 50. into:v dte from jx.jxsj;/* 查 询 变 量 日 期 赋值 给 变量 v_indte*/ 
quit; 
data trans20120801; 
set jx.trans jl; 
where trans dt-&v dte; /* 查 询 条 件 */ 
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run; 

%mend; 

%trans; /* 调 用 宏 过 程 */ 

族 查 看 生产 的 数据 集 */ 
proc print data=trans20120801; 
run; 


查看 数据 集 ， 输 出 窗口 显示 如 图 8-6 所 示 。 


Bà 输出 - (无 标题 ) 


übs EMPNO DIQU SAL  DEPTNO TRANS DT 
河北 省 65879.29 16 01AUG2012:00:00:00 


广东 省 35872.88 18 014UG2012:00:00:00 
| > 
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8-6 trans20120801 数据 集 显 示 


【程序 解读 】 
1) SQL 过 程 中 通过 jxsj 时 间 翻 盘 表 控制 时 间 ， 此 时 间 每 天 更 新 。 目 前 bksj 字段 时 间 为 
20120801， 通 过 语句 select bksj format 50. into:v dte from jx.jxsj; 赋值 时 间 给 宏 变 量 
V_dte。 
2) where trans dt-&v dte; : ERAF, trans dt-&v dte fH. 
【 例 8.15】 请 从 Oracle 数据 库 中 的 数据 表 xdrish 中 取出 第 6 一 260 条 记录 。 


libname jx oracle user-chiran password-chiran path-orcl; 
libname csj 'd:jx; /* 建 立 指向 目录 的 文件 路 径 的 宏 变 量 */ 
data csj.xdrish206; 
set jx.xdrish (firstobs=6 obs=260); 
/* firstobs=6 控制 读 取 行 记录 的 开始 位 置 ，obs=260 控制 读 取 行 记录 的 结束 位 置 */ 


run; 


【程序 解读 】 
set jx.xdrish(firstobs=6 obs=260); : firstobs=6 表示 从 第 6 条 记录 开始 取 ，obs=260 表示 取 
到 第 260 条 记录 结 


8.2 ”信用 卡 交 易 流水 数据 提取 案例 


随 着 信用 卡 的 普及 ， 刷 信用 卡 消费 已 经 成 为 主流 交易 方式 ， 通 过 SAS 系统 与 Oracle 数据 
库 的 交互 应 用 ， 可 以 提取 信用 卡 交易 流水 数据 分 析 交 易 信 息 ， 以 便 发 现 客户 的 交易 规律 ， 从 
而 对 客户 采取 相应 的 营销 策略 与 服务 推广 。 
【 例 8.16】 从 Oracle 数据 库 交易 表 trans. flow 中 提取 客户 卡号 为 “<100000000000000008”、 
时 间 为 201207-01~2012-31 期 间 的 数据 ， 分 析 客 户 的 消费 行为 。 数 据 存储 在 d:yxvran. flow.dat. 
本 案例 交易 表 trans. flow 字段 说 明 ， 如 表 8-1 所 示 。 
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表 8-1 trans flow 表 字 段 结 构 说 明 


* ER yi 明 
cust id 客户 号 
card num 卡号 
name 姓名 
jiaoyie 交易 额 
jiaoyi dt 交易 日 期 
jiaoyi address 交易 地 点 
0: 旅游 消费 
jiaoyi type 1: 商场 消费 
2: 养生 消费 
3: 网 购 消费 


有 具体 实现 步 又 如 下 : 
1) 创建 Oracle 数据 库 中 的 目标 表 trans_flow。 


-- Create table 
create table trans flow 


( 


cust id number(6) not null, 


card num  char(18), 

name  varchar2(10), 
jiaoyie — number(7,2), 
jiaoyi dt date, 

jiaoyi address — varchar2(30), 
jiaoyi type  char(1) 

) 

tablespace USERS; 


2) 创建 Oracle 数据 库 中 的 时 间 翻 盘 表 begi end sjo 
Create table begi end sj 


( 
begi dt date, 
end dt date 


) 


tablespace users; 


查询 时 间 翻 盘 数据 如 图 8-7 Pr 
3) SAS 程序 实现 外 部 数据 装载 到 Oracle 数据 库 。 


* 外 部 数据 处 理 ， 生 成 SAS Hug 


pus 


3 


libname jx oracle user-chiran password=chiran path=orcl; 


%let fl =d:\jx\tran_flow.dat; 
%let filjx ="&f1"; 
data transflow; 
Infile &filjx dlm='|! lrecl=82 dsd missover ; 


select * from begi_end_sj 


图 8-7 begi end sj 表 信 息 
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input cust id :6. 


card num :$18. 

name :$10. 

jiaoyle 21.2 

jiaoyi dt :yymmdd10. 
jiaoyi_address :$30. 
jiaoyi_type :$1. 


run; 
*# 生 成 的 SAS 数据 集 transflow 装载 到 Oracle 数据 库 目 标 表 trans_flow; 
proc append  base-jx.trans flow 

( bulkload-no 


dbsastype-( 

cust id —NUMERIC' 

jiaoyie —NUMERIC' 
jiaoyi dt —DATE' 
) 
nullchar-NO /# 告 诉 SAS Rk fle bL NULLCHARVAL-JB E f Hes 
nullcharval-" " 
) 


data-transflow; 


run; 


4) 提取 Oracle 数据 库 中 的 目标 表 trans. flow 进行 数据 分 析 。 


Libname jx oracle user-chiran password-chiran path-orcl; 
proc sql noprint; 
select begi dt format 50. into :v begidt from jx.begi end sj; 
Perf aet HHE AS AE E v. begidt*/ 
select end dt format 50. into :v enddt from jx.begi end sj; 
/# 查 询 变量 日 期 赋值 给 变量 v enddt*/ 
quit; 
data trans201207; 
set jx.trans flow; 
where &v_ begidt<jiaoyi dt<&v enddt and card num-'100000000000000008'; 
[& t ae px 


run; 
5) 调用 过 程 分 析 。 


[* iH] means 过 程 分 析 */ 


proc means data-trans201207 ; 


var jiaoyie; 


run; 


程序 执行 后 输出 窗口 显示 如 


DS 


8-8 所 示 。 
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(无 标题 ) 


MEANS 过 程 
分 析 变 量 : JIAOYIE JIAOYIE 


图 8-8 trans201207 数据 集 分 析 结 


【程序 解读 】 
1) select begi dt format 50. into :v begidt from jx.begi end sj;: 从 数据 库 翻盘 表 
begi end sj 取 日 期 begi_dt( 开 始 日 期 ) 赋 值 给 变量 v. begidt. 
2) select end dt format 50. into :v enddt from jx.begi end sii: 从 数据 库 翻 盘 表 
begi end sj 取 日 期 end_dt (结束 日 期 ) 赋 值 给 变量 v. enddt. 
3) where &v begidt-jiaoyi dtc«&v enddt and card num-100000000000000008'; : 过 滤 条 
件 ， 取 日 期 范围 内 且 卡号 为 100000000000000008 的 数据 。 
4) 调用 means 过 程 对 jiaoyie (交易 额 〉 进 行 分 析 。 
【分 析 结 果 解 读 】 
此 客户 月 平均 刷卡 消费 为 1 547.14 元 , 最 高 消费 额 为 3 020.13 元 , 最 低 消费 额 为 320.13 元 。 
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9.1 


传统 的 SAS 系统 输出 形式 是 每 个 过 程 只 能 


第 9 章 ODS 基础 与 


ODS 基础 


主人 
综合 案 


例 


自己 输出 结果 ,SAS 系统 版 本 7 开始 支持 ODS 


COutput Delivery System， 输 出 传输 系统 ) 输出 各 类 格式 文件 控制 。ODS 可 以 把 过 程 步 中 产生 


的 输出 以 指定 的 文件 格式 输出 到 目录 ， 可 以 输出 PDF. HTML 等 格式 文件 。 
ODS 概述 与 功能 


9.1.1 


(1) ODS 概述 


SAS 运行 其 程 


1) 在 OUTPUT 窗 
2) 在 OUTPUT 窗口 是 等 宽 的 字体 列表 方式 显示 的 ， 


3) 每 个 过 
ODS 提供 


N 


式 。 通 过 ODS， 


出 可 以 采 


Z] 


序数 据 及 其 加 了 
形式 显示 分 析 结 果 ， 而 


程 提交 后 


了 输出 多 样 化 的 目标 格式 文件 ， 从 而 能 够 执行 和 控 人 
以 不 受 限制 地 以 各 种 美观 的 方式 来 报告 和 显示 分 析 结 果 。 创 建 的 SAS 输 
多 种 输出 格式 ， 如 

ODS 既 省 时 ， 又 节约 资源 ， 
果 ， 而 不 必 反 复 运行 各 个 过 程 
和 数据 查询 的 全 部 输出 ， 


可 


可 


HTML. 


[结果 的 输出 中 , 最 常用 的 方式 是 在 OUTPUT 窗口 以 文本 的 
形 则 在 GRAPH 窗口 显示 。 这 些 显示 方法 都 有 一 定 的 局 限 性 : 
的 结果 不 便于 转换 成 SAS 数据 集 作 进一步 的 分 析 处 理 。 
尼 的 表格 无 法 在 其 他 字体 的 环境 下 使 用 。 
其 输出 是 一 个 整体 ， 难 于 进行 挑选 。 


I 所 有 SAS 过 程 输出 的 格 


PDF、RTF、PCL， 以 及 全 新 的 “ODS 文档 ”格式 。 


去 留 以 及 显示 格式 ， 而 不 必 反 复 运行 同一 过 程 

ODS 提供 了 模板 定义 ， 可 以 定义 过 程 
PROC TEMPLATE 自行 创建 定义 ， 可 定制 输出 ， 同 时 可 
出 选 定 或 创建 的 任意 标记 集 。 
岗 方 式 是 通过 3 个 基本 组 伯 


ODS 533 


还 方便 控制 输出 的 结构 和 层次 ， 可 以 生成 多 个 ODS 输出 结 
或 数据 查询 。 此 外 ， 
制 或 修改 输出 


通过 重新 整理 、 复 制 或 删除 表 甚 至 是 过 程 

的 层次 结构 。 总 之 ，ODS 可 以 控制 文档 内 容 的 

和 数据 查询 。 

和 DATA 步 输出 的 结构 。 修 改 这 些 定义 或 使 用 
TEMPLATE 过 程 创 建 和 修改 为 输 


c 


来 实现 的 : 数据 组 件 、 表 定义 组 件 (如 列 的 顺序 和 行 》 


和 输出 目标 文件 格式 C HTML, PDF, DAT, TXT 和 CSV) 。 
(2) ODS 功能 


ODS 的 主要 功 


件 类 型 


RTF 和 CSV 等 文 伯 


全 部 或 音 


以 挑选 和 剔除 


格式 。 通过 ODS 全 
或 过 程 步 的 输出 可 以 根据 需求 输出 到 数 扫 
F 类 型 的 格式 。 对 每 个 过 程 的 输出 结果 分 为 一 个 或 多 个 对 象 ， 使 
了 分 对 象 输出 显示 。 对 每 个 过 程 的 输 


Ab E 
用 十 


环境 的 结果 窗 


组 织 和 管理 输 + 


过 程 输出 的 茶 些 部 分 ， 同 时 也 可 以 将 过 程 的 结果 输出 到 指定 的 数据 集 。 交 互 操作 


的 对 象 。 
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用 来 控制 输出 的 ， 把 数据 步 或 过 程 步 产 生 的 输出 结果 输出 到 指定 的 文 
局 语句 可 以 控制 输出 结果 到 指定 


的 目录 和 文件 格式 。 ODS 对 数据 步 
四 集 或 更 多 文件 类 型 格式 ， 如 HTML. DAT. PDF. 

者 可 选择 
出 对 象 ， 可 选择 不 同 的 传送 目标 和 显示 格式 ， 也 可 


9.1.2 ODS 定义 与 应 用 


(D ODS 输出 传输 各 类 格式 文件 语法 定义 
语法 格式 : ODS output-format < 选项 >; 
SAS 程序 代码 ; 


ODS output format close; 


【语法 解读 】 

ODS: ODS 传送 输出 的 关键 字 。 

output-format: 指定 输出 的 文件 格式 ， 可 以 取 的 格式 有 HTML, PDF 和 RTF 等 。 

< 选项 >: ODS 全 局 语句 中 的 选项 参数 ， 如 fle=、contents=、frame=、gpahf 拓 和 close 等 选项 。 

SAS 程序 代码 : SAS 系统 中 调用 内 部 过 程 对 数据 集 进行 分 析 处 理 的 SAS 程序 。 

ODS output format close: 指定 关闭 某 个 格式 文件 语句 。 

(2) ODS LISTING 

ODS LISTING 是 SAS 系统 默认 的 输出 结果 传输 目标 状态 ， 默 认 以 文本 形式 输出 结果 到 
OUTPUT 窗口 显示 ; 图 形 输出 到 GRAPH 窗口 显示 。 

语法 格式 : ODS LISTING <action>; 

ODS LISTING <datapanel=numberldatalpage> <file=file-specification>; 


【语法 解读 】 
ODS LISTING: 告诉 SAS 系统 采用 ODS 的 LISTING 输出 方式 ， 固 定语 法 。 
Action 选项 具有 以 下 4 个 动作 : 

1) 关闭 LISTING 默认 输出 目标 。 
2) 指定 要 排除 的 输出 对 象 。 
3) 选择 输出 包含 的 输出 对 象 。 
4) 对 当前 要 排除 的 对 象 或 选择 的 对 象 信息 输出 到 SAS 日 志 。 
Action 具有 的 选项 语句 如 表 9-1 所 示 。 

表 9-1 Action 选项 说 明 


选 项 说 明 
CLOSE 关闭 输出 到 OUTPUT 窗 
EXLUDE exclusion(s)ALL|INONE 指定 LISTING 要 排除 输出 的 对 象 
SELECT selection(sALL|INONE 指定 LISTING 要 选择 输出 的 对 象 
SHOW 指定 当前 选择 或 排除 对 象 信息 写 到 日 志 中 


datapanel= 选 项 语句 主要 用 来 拆 分 数据 集 。 每 个 列 和 行 称 为 一 个 数据 面板 。datapanel= 选 
项 功能 说 明 如 表 9-2 所 示 。 


表 9-2 datapanel= 选 项 功能 说 明 


选 项 说 明 
number 指定 一 个 数据 面板 写 入 的 观测 记录 数 
data 指定 内 存 中 存储 面板 的 大 小 
page 默认 此 项 ， 数 据 面板 大 于 200， 用 datapanel=200 指定 
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file= 选 项 指定 输出 的 文件 ， 可 以 取 的 选项 分 两 种 情况 ， 如 表 9-3 所 示 。 


表 9-3 file-file-specification 可 以 取 的 选项 说 明 


file-specification 说 明 
外 部 文件 路 径 指定 输出 到 外 部 文件 ， 写 物理 路 径 和 文件 名 
文件 标识 取 FILENAME 语句 声明 的 文件 标识 


【提示 】 如 果 关 闭 了 LISTING， 可 以 通过 执行 ODS LISTING 打开 SAS 默认 输出 。 

实际 开发 中 为 了 提高 程序 运行 的 效率 ， 不 用 的 管道 可 以 通过 ODS 中 的 Close 动作 
关闭 。 

(3) ODS 应 用 

ODS 主要 用 来 生成 各 种 类 型 的 外 部 文件 ,通过 ODS 输出 系统 可 以 生成 PDF、RTF HTML, 
XML、PS、DAT、TXT 等 类 型 文件 ， 从 而 把 SAS 分 析 系 统 的 分 析 结果 或 数据 集 打 印信 息 以 
文件 的 形式 存储 保存 。 


9.2 ODS 综合 案例 


ODS 实际 的 业界 应 用 是 多 个 ODS 语句 组 合 的 整体 联合 应 用 ， 这 也 体现 了 ODS 输出 传输 
系统 强大 的 功能 。 


9.2.1 ODS 输出 PDF 文件 


PDF 格式 文件 是 经 常用 到 的 一 类 格式 文件 , 通过 ODS 输出 传输 系统 可 以 帮助 生成 各 种 样 
式 的 PDF 格式 文件 。PDF 格式 文件 需要 通过 Adobe Acrobat Reader 来 进行 读 取 ， 需 要 有 
Adobe 阅读 工具 。 

语法 格式 : ODS pdf file= 物理 存储 路 径 \file name.pdf '; 

SAS 程序 语句 
ODS pdf close; 


【语法 解读 】 
pdf: 定义 输出 目标 为 PDF 格式 文件 的 关键 字 。 
file=' 物 理 存 储 路 径 \file name.pdf: 定义 输出 PDF 格式 文件 的 物理 存储 路 径 和 文 伯 
不 指定 物理 路 径 系 统 就 默认 输出 到 默认 物理 路 径 。 
ODS pdf close: close 语句 关闭 PDF T Xr H 
[5| 9.1] ODS PDF 语句 的 应 用 ， 数 据 集 classl 打印 输出 到 PDF 格式 文件 ， 文 件 名 为 
classl pdf. 


名 ， 


Tr 


LL 


o 


*pdf 文件 输出 ; 

libname jx 'd:\jx'; 

ods pdf file='d:\jx\classl pdfpdf; /* 生 成 PDF 格式 设置 */ 
proc print data=jx.classl; 


run; 
ods pdf close; /*X M] pdf 输出 */ 
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【程序 解读 】 

1) 数据 集 classl 存储 路 径 文件 夹 为 “dNx”， 程 序 执 行 创建 逻辑 库 语 句 ， 通 过 逻辑 库 执 
行 数 据 集 存 储 路 径 。 

2) ODS pdf file='d:\jx\classl1 pdfpdf: ODS 和 pdf 是 关键 字 ，pdf 关键 字 告 诉 SAS 系 
统 ODS 输出 信息 以 pdf 格式 的 文件 存储 到 fiel= 语 句 指定 的 文件 class! pdfpdf， 存 储 到 目录 
di:yjx 文件 夹 下 。 

3) 执行 print 打印 过 程 ， 同 时 写 打 印信 息 到 class]. pdfpdf 文件 。 

4) ODS pdfclose: 关闭 pdf 通道 。 

【 例 9.2】 对 例 9.1 进行 改造 ， 打 印 过 程 输出 信息 存储 到 “dNx” 目 录 下 ， 存 储 为 pdf 格 
式 文 件 ， 文 件 名 为 class， 并 关闭 默认 输出 窗口 。 


Tr 


*pdf 文件 输出 ; 
libname jx 'd:\px'; 

ods listing close; /x 关闭 默认 输出 到 OUTPUT 窗口 */ 
ods pdf file-'d:jxWlass.pdf; /x* 生 成 PDF 格式 设置 */ 


proc print data-jx.classl; 


run; 
ods pdf close; /*XH PDF 输出 */ 
ods listing; — /# 打 开 默 认输 出 OUTPUT 窗口 */ 


【程序 解读 】 
1) 执行 ods listing close， 关 闭 默认 输出 到 OUTPUT 窗口 。 


MM 


2) 执行 ods pdf close， 关 闭 PDF 通道 。 

3) 执行 ods listing， 打 开 默 认输 出 到 OUTPUT 窗口 。 

【 例 9.3】 调查 某 个 地 区 50 个 人 的 年 收入 情况 ， 求 出 年 收入 最 小 值 、 最 大 值 、 均 值 和 全 
距 ， 分 析 结 果 输 出 到 路 径 “dNx” 文 件 夹 下 ， 保 存 为 sr.pdf。 


libname jx 'd:\px'; 入 定义 存储 逻辑 库 状 
ods listing close; /# 关 闭 默 认输 出 到 OUTPUT 窗口 */ 
ods pdf file-'d:jxwrpdf; 4# 生 成 PDF 格式 设置 */ 
%let path- D:jxwr; 信 定 义 外 部 文件 路 径 %/ 
Volet type-.txt; 
Volet fil- "&path&type"; 
data jx; /# 数 据 集 存储 到 指定 逻辑 库 关 
Infile &fil ; 
input id :$4. 
year money 


run; 

proc univariate data-jx.sr freq normal plot; 
var year money; /* 指 定 分 析 变 量 */ 

run; 

ods pdf close; /*X M] pdf 输出 */ 

ods listing; — /# 打 开 默 认输 出 OUTPUT 窗口 */ 
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【程序 解读 】 
univariate 过 程 分 析 结 果 存 储 到 ODS pdf 语句 中 file='d:\jx\sr.pdf 指 定 路 径 文 件 的 


sr.pdf 文件 格式 中 。 
打开 此 文件 可 以 看 到 如 图 9-1 所 示 的 部 分 PDF 格式 文件 显示 的 输出 报告 ,分 析 报告 以 pdf 
格式 保存 在 物理 路 径 下 。 
- ZUIZXFU/HZoH 至 期 三 下 二 US 用 
SAS 系统 
UNIVARIATE PROCEDURE 
变量 : — year money 
— 直方 图 MEL NNNM 正太 概率 本 
SR SÉ 19 一 (一 50000> * LEII OO ER **o* 
+ 最 多 可 代表 2 个 计数 -2 - 0 ” +2 
9-1 sr.pdf 格式 文件 


D 


9.2.2 ODS 输出 HTML 文 件 
HTML CHypertext Markup Language， 超 文本 格式 文件 ) 提供 了 一 种 输出 文件 的 格式 。 
语法 格式 : ODS HTML file-"html-file-specification' <option> «style-'style-definition'?; 
SAS 分 析 输 出 程序 ; 
ODS html close; 


【语法 解读 】 
file=html-file-specification.html :指定 输出 的 HTML 文件 名 。 


<option>: 通过 选项 对 HTML 格式 文件 进行 设置 。 可 以 指定 4 个 HTML XH 日 选项 


zi 
—n 


如 表 9-4 所 示 。 
表 9-4 option 常用 选项 


选 项 功能 说 明 
body="body-file-name.html’ 输出 的 HTML 文本 体 
Contents=’contents-file-name.html’” 包含 HTML 输出 内 容 的 表 ， 通 过 超 连 接 链接 文件 体 
E ; 合并 表 内 容 、 页 内 容 和 文本 体内 容 ， 指 定 此 选项 时 必须 指定 
Frame-"frame-file-name.html 
contents= 或 page- 
文件 体 每 一 页 的 描述 信息 且 连 接 文本 体 


Page=”page-file-name.html” 
Style=: 选择 HTML 呈现 的 样式 。 


ODS html close: 关闭 HTML 输出 语句 。 
【提示 】 SAS9 版 本 是 ODS HTML 输出 的 HTML4.0 版 本 ， 和 以 前 输 H 


的 HTML3.0 版 本 
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有 相当 大 的 差异 ， 可 以 通过 ODS HTML3 声明 改变 成 HTML3.2 格式 ， 也 可 以 在 SAS 注册 日 
KRA HTML 版 本 。 


【 例 9.4】 对 孩子 的 身高 与 父母 身高 的 关系 进行 


H 


归 分 析 ， 结 果 以 HTML 网 页 的 方式 存 


储 到 d:jx 目录 文件 夹 下 。 


ods listing close; 
ods results off; 
ods html path-'d:yx' 
body-'shengao bo.html(title=' 父 母 与 孩子 身高 关系 ) 
contents='shengao_con.html(title=' 身 高 分 析 ) 
frame-'shengao fram.html'(title- $2 R]-Ej fZ-Y- Eig v) 
newfile-proc; 
* 对 外 部 数据 处 理 ; 
%let path= D:jxWhengao; /* 7E X / ABC TERR TES 
Volet type-.txt; 
Volet fil- "&path&type"; 
libname jx'dXjx5 /* E XP 48 */ 
data jx.hengao; ”/* 数 据 集 存储 到 指定 逻辑 库 */ 
Infile &fil dlm=| dsd missover; 
input haizi :4. 
father :4. 
mother :4. 


run; 

[il CORR 过 程 分 析 */ 

proc corr data=jx.shengao nosimple; 
var father mother haizi; 

run; 

ods html close; 

ods results off 

ods listing; 


【程序 解读 】 
1) ods results off: 此 语句 的 作用 是 使 得 proc 过 程 步 的 输出 不 在 results 中 显示 。 
2) ods html path-'d:jx' 
body='shengao_bo.html'(title=' 父 母 与 孩子 身高 关系 ') 
contents-'shengao con.html'(title-' £f i5 2] T") 
frame='shengao_fram.html'(title=' 父 母 与 孩子 身高 公式 ') 
newfile=proc;: 定义 ODS 输出 以 HTML 格式 输出 ， 输 出 的 HTML 格式 文件 存储 到 dix 


文件 夹 下 。body=' 语 句 指 定 主体 信息 存储 到 dix 文件 夹 下 , 以 shengao_bo.html 名 字 存 储 网 页 ， 
标题 名 为 title= 语 句 指定 网 页 名 称 ;，contents= 语 句 存 储 分 析 的 过 程 名 信息 ， 存 储 到 di\jx 文件 来 
下 ， 以 shengao_con.html 名 字 存 储 网 页 ，frame= 存 储 过 程 步 分 析 的 全 部 信息 ， 存 储 到 dix x 


件 夹 下 ， 以 shengao fram.html 文件 名 存储 网 页 。 
3) ods html close: 关闭 HTML 输出 。 
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4) ods results off: proc 过 程 步 结 束 后 重新 打开 results。 


5) ods listing: proc 过 程 步 结束 后 重新 打开 listing。 
【 例 9.5】 对 例 9.4 输出 到 HTML3.0 版 本 的 HTML 文件 。 


"n 


*html3 版 本 文件 输出 ; 
ods listing close; 
ods results off; 

ods html3 path='d:\jx' 


body-'shengao bo3.html'(title=' 父 母 与 孩子 身高 关系 ) 


contents-'shengao con3.html'(title-' £f 5; 2) WT) 
frame='shengao_fram3.html(title=' 父 母 与 孩子 身高 公式 ) 
newfile=proc; 


* 对 外 部 数据 处 理 ; 

%let path= D:jxWhengao; 人 # 定 义 外 部 文件 路 径 妆 

%let type-.txt; 

Volet fil- "&path&type"; 

libname jx'd:jx" /*zE XP 48g */ 

data jx.shengao; /* Zh SEES EX PETI 

Infile  &fil dlm=| dsd  missover; 
input haizi :4. 

father :4. 
mother :4. 


run; 
人 # 调 CORR 过 程 分 析 */ 
proc corr data=jx.shengao nosimple; 


var father mother haizi; 
run; 

ods html3 close; 

ods results off; 

ods listing; 


【程序 解读 】 
1) ods html3: 指定 输出 HTML 格式 为 HTML3.0 版 本 ， 其 他 语句 相同 。 
2) ods html3 close: 关闭 HTML3 格式 输出 。 


9.2.3 ODS 输出 CSV 格 式 文 件 


CSV (Comma Separated Value) 格式 文件 是 以 逗号 分 割 的 一 类 文件 ，Excel 格式 文件 可 以 
另存 为 CSV 格式 。Microsoft Office 工具 通过 另存 为 可 以 CSV 格式 文件 ， 不 属于 Excel 文件 。 
两 种 语法 格式 输出 文件 为 CSV 格式 文件 ， 通 过 csvall 输出 目标 输出 到 CSV 格式 。 

语法 格式 1: ODS csvall file=" 物 理 路 径 \file name.csv”; 
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SAS 程序 语句 
ODS csvall close; 


【语法 解读 】 对 于 生成 CSV 格式 文件 输出 ， 需 要 通过 LISTING 通道 ， “fle=” 选 项 中 
设置 文件 存储 路 径 中 的 文件 名 以 扩展 名 CSV. 格式 保存 。 
语法 格式 2: 
Filename 他 辑 文件 标识 “物理 路 径 名 \file_name.csv; 
ODS csvall file= 逻 辑 文件 标识 ; 
SAS 程序 语句 ; 
ODS csvall close; 
【 例 9.6】 将 “人 文 与 经 济 (Humanity and Economy) 发 展 综合 系数 ”指标 数据 输出 到 物 
里 路 径 为 “dx” 的 文件 夹 下 ， 文 件 格式 为 CSV 格式 文件 。 


* 数 据 集 存 储 cvs 文件 输出 到 指定 物理 路 径 ; 
data Human e; 
title "国民 生活 质量 人 文 与 经 济 指标 分 析 "; 


input area $ Human el-Human e5; 


rs 


cards; 

上 海 10827 23019148 11.6 15258 74 
天 津 10399 12938224 10.3 7979 76 
北京 10377 19612368 12.6 18300 75 
江苏 7779 78659903 8.2 5817 76 
浙江 752454426891 8.3 9279 70 

内 蒙古 6978 24706321 7.5 3518 73 
广东 6440 104303132 8.9 7482 72 
辽宁 6232 43746323 7.3 4448 75 
山东 6040 95793065 8.1 3919 73 
福建 590036894216 8.3 6250 74 


run; 
option nocenter; ，/* 全 局 变量 ， 显 示 到 文件 的 内 容 不 居中 ， 输 出 居 左 */ 
filename outcsy 'd:jx\Human e.csV; 人 # 定 义 外 部 输出 路 径 和 文件 名 逻辑 标识 头 


ods listing close; 


ods results off; 
ods csvall file-outesv; /*/EJ€ CSV 格式 设置 */ 
proc print data-Human e noobs; 


ods csvall close; 
ods results on; 
ods listing; /x 打开 默认 OUTPUT 窗口 */ 
【程序 解读 】 
1) option nocenter;: 此 语句 显示 到 CSV 格式 文件 的 内 容 不 居中 ， 输 出 居 左 。 
2) filename outcsv 'd:jx Human e.csv';: 定义 外 部 输出 文件 路 径 和 文件 名 逻辑 标识 。 
3) ods csvall file-outesv;: 为 ODS 输出 CSV 格式 设置 。 
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4) ods csvall close;: 关闭 CSV 格式 输出 。 


9.2.4 ODS 与 Oracle 交 互 输 出 


PDF 文件 


ODS 输出 传输 系统 与 Oracle 数据 库 联合 应 用 是 综合 应 用 的 体现 。 数据 步 、 过 程 步 和 ODS 
输出 传输 系统 共同 联合 应 用 完成 实际 业务 需求 的 任务 。 


【 例 9.7】 提取 Oracle 数据 库 ， 


根据 申请 得 分 数据 ， 分 析 各 类 信用 卡 申请 的 信用 卡 数量 


平均 值 、 标 准 差 和 变异 系数 ， 分 析 结 果 以 PDF 格式 存储 到 物理 路 径 “dNx” 目 录 下 。 原 始 数 


据 存储 在 Oracle 数据 库 中 。 
程序 如 下 : 


filename exout ”'di\jx\credit fx.pdf;”/* 定 义 外 部 文件 存储 路 径 标识 */ 


libname sjk oracle user=c 
libname jx  'd:x* 
ods listing close; 
ods pdf file-cexout; /# 生 成 
* 数 据 集 处 理 ; 


hiran password-chiran path=orcl; /* 建 立 与 数据 库 连 接 的 逻辑 库 */ 


PDF 格式 设置 */ 


data cq.creditana;/* 数 据 集 存储 到 指定 逻辑 库 对 应 的 目录 中 */ 


set sjk.credit dz;/*set 
run; 
* 对 申请 数据 进行 分 析 ; 


proc means data-cq.creditan 


语句 读 取 数 据 库 中 的 表 ， 建 立 数据 集 */ 


a n mean std cv maxdec=3; 


人/# 调 用 means 统计 过 程 ，maxdec=2 指定 输出 中 最 多 有 两 位 小 数 */ 
class credit type; /# 按 credit type 分 类 */ 
var cre xlsc cre nxsc cre hysc;/# 分 析 学 历 得 分 ， 工 作 年 限 得 分 ， 行 业 得 分 关 


run; 


ods pdf close; /* 关 闭 PDF 输出 */ 


ods “listing;/* 打 开 上 默认 输出 */ 


【程序 解读 】 


* 


1) 4T filename 语句 ， 生 成 外 部 文件 标识 exout， 文 件 标 识 对 应 的 物理 路 径 为 


“d:\dzwj” o 


2) 建立 SAS 连接 Oracle 数据 库 的 逻辑 库 。 


3) 建立 存储 数据 集 到 指定 物理 


路 径 的 逻辑 库 ， 执 行 “libname cq "ddzwj'” 语 句 。 


4) 执行 “ODS listing close” 语 句 ， 暂 时 关闭 不 需要 的 输出 通道 。 


5) 执行 “ODS pdf file=exout” 


到 文件 标识 对 应 的 物理 路 径 目录 中 。 
6) 执行 数据 步 ， 读 取 数 据 库 中 的 表 credit dz 创建 数据 集 ， 存 储 到 cq 逻辑 库 指向 的 物理 


7) 执行 过 程 步 ， 调 用 均值 mea 
PDF 通道 ， 存 储 到 指定 物理 路 径 。 


8) 分 析 完 成 后 ， 执 行 “ODS pdf close” 语 句 ， 关 闭 PDF 输出 通道 。 


9) 执行 “ODS listing” 语 句 ， 
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语句 ， 打 开 PDF 输出 通道 ， 并 通过 file=exout， 把 输出 写 


ns 过 程 对 数据 步 生 成 的 数据 集 进行 分 析 ， 输 出 分 析 结 果 到 


打开 SAS 默认 输出 通道 。 


9.2.5 ODS 输出 TXT 格式 文件 


TXT 格式 是 一 种 文本 文档 ， 是 微软 在 操作 系统 上 附带 的 一 种 文本 格式 ，ODS 输出 传输 系 


Hl 


Tr 


统 有 两 种 书写 语法 方式 生成 TXT 格式 文 
语法 格式 1: ODS listing file=’ 物 理 路 径 \file_ name.txt’; 


SAS 程序 语句 
ODS listing; 


o 


【语法 解读 】 
ODS listing file=: 指定 LISTING 通道 ， 
TXT 格式 保存 。 


6 file=” 选项 中 


Tr 


通过 filename 指定 外 部 文件 存储 路 径 生 成 TXT fioc 
法 格式 2: 
Filename 人 逻辑 文件 名 “物理 路 径 名 \file_name.txt’; 


ODS listing file= Z 48 X fT 44; 
SAS 程序 语句 ; 


语 


ODS listing; 
【提示 】 通过 LISTING 管道 
【 例 9.8】 人 文 与 经 济 指标 数据 集 输 出 到 物 
式 文件 ， 文 件 名 为 humantxt。 


* 数 据 集 存储 TXT 文件 输出 到 指定 物理 路 径 ; 
data Human e; 

title "国民 生活 质量 人 文 与 经 济 指标 分 析 "; 
area $ Human el-Human e5; 


input 
cards; 
上 海 10827 23019148 11.6 15258 74 
天 津 10399 12938224 10.3 7979 76 
: 10377 19612368 12.6 18300 75 
江苏 7779 78659903 8.2 5817 76 
浙江 7524 54426891 8.3 9279 70 
内 蒙古 6978 24706321 7.5 3518 73 
广东 6440 104303132 8.9 7482 72 
辽宁 6232 43746323 7.3 4448 75 
山东 6040 95793065 8.1 3919 73 
福建 5900 36894216 8.3 6250 74 


r1 
G^ 


E 


run; 


2 


/# 全 局 变量 ， 使 显示 到 文件 的 内 容 不 
'd:\jx\humantzxt.txt'; 


option nocenter; 


filename outtxt 


， 上 面 两 种 语法 格式 都 能 输出 TXT 格式 文件 
路 径 为 “dx” 的 目 


PH, 


设置 文件 存储 路 径 中 的 文件 名 以 


o 


T 


o 


录 下 ， 存 储 为 TXT f& 


输出 


居 左 */ 


族 定 义 外 部 输出 路 径 和 文件 名 逻辑 名 ， 逻 辑 名 长 度 不 能 超过 命名 规则 长 度 */ 


FER TXT 格式 设 
data-Human e noobs; 


ods 
proc print 


listing  file-outtxt; 


run; 


, file= 44 */ 
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ods listing; /#* 打 开 默 认 OUTPUT 窗口 */ 


【程序 解读 】 
1) 程序 首先 处 理 cards 语句 数据 块 读 入 的 数据 ， 生 成 数据 集 Human_e， 存 储 到 当前 临时 
逻辑 库 中 。 
2) filename outtxt 'd:\jx\humantxt.txt';: 建立 外 部 存储 路 径 文件 标识 和 文件 名 ， 扩 展 名 
为 TXT。 
3) ODS listing file-outtxt;: 生成 TXT 格式 设置 ，file= 逻 辑 名 指定 写 入 的 外 部 文件 名 ， 
即 filename 语句 定义 的 逻辑 名 outxtx。 


9.2.6 ODS 输出 DAT 格 式 文件 


DAT 格式 文件 并 不 是 一 种 标准 文件 ， 许 多 软件 都 使 用 这 个 扩展 名 ， 但 文件 含义 不 同 。 例 
W, VCD 光盘 中 的 DAT 文件 就 可 以 用 一 般 的 视频 播放 器 打开 ， 而 QQ 的 DAT 文件 中 则 存储 
了 用 户 信息 ， 是 无 法 使 用 常规 方式 打开 的 ， 只 有 QQ 程序 可 以 访问 。 还 有 一 些 其 他 程序 都 有 
自己 对 DAT 文件 的 定义 , 要 通过 其 特殊 的 程序 来 打开 与 之 相关 联 的 DAT 文件 。 本 节 ODS 输 
出 的 DAT 格式 文件 属于 一 种 文本 文件 的 扩展 名 ， 扩 展 名 是 .DAT。 这 种 文本 是 纯 文 本 ， 没 有 
数据 属性 结构 方面 的 信息 ， 可 以 用 记事 本 等 文本 工具 打开 。 
语法 格式 1: ODS listing file=’ 物 理 路 径 \file_ name.dat’; 
SAS 程序 语句 
ODS listing; 
【语法 解读 】 
ODS listing file=: 指定 LISTING 通道 ，“file=” 选 项 中 设置 文件 存储 路 径 中 的 文件 名 以 
DAT 格式 保存 。 
通过 filename 指定 外 部 文件 存储 路 径 生 成 DAT 格式 文件 。 
语法 格式 2: 
Filename 逻辑 文件 标识 “物理 路 径 名 \file_ name.dat'; 
ODS listing file= 人 逻辑 文件 标识 ; 
SAS 程序 语句 ; 
ODS listing; 
【提示 】 通过 LISTING 管道 ， 上 面 两 种 语法 格式 都 能 输出 DAT 格式 文件 。 
【 例 9.9】 对 例 9.8 进行 改造 ， 生 成 为 DAT 格式 文件 ， 文 件 名 为 humandat。 


* 数 据 集 存 储 dat 文件 输出 到 指定 物理 路 径 ; 
data Human e; 
title "国民 生活 质量 人 文 与 经 济 指标 分 析 "; 


input area $ Human el-Human e5; 


T 


cards; 

上 海 10827 23019148 11.6 15258 74 
天 津 10399 12938224 10.3 7979 76 
北京 10377 19612368 12.6 18300 75 
江苏 7779 78659903 8.2 5817 76 
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浙江 7524 54426891 8.3 9279 70 
内 蒙古 6978 24706321 7.5 3518 73 
广东 6440 104303132 8.9 7482 72 
辽宁 6232 43746323 7.3 4448 75 
山东 6040 95793065 8.1 3919 73 


H 
run; 
option nocenter; 


filename  outdat 


福建 5900 36894216 8.3 6250 74 


/# 全 局 变量 ， 使 显示 到 文件 的 内 容 不 
'd:\jx\humandat.dat'; 


ka FH 


居 左 */ 


上 放 定 义 外 部 输出 路 征 和 文件 名 逻辑 名 ， 逻 辑 名 长 度 不 能 超过 命名 规则 长 度 */ 
ods listing file-outdat; 4# 生 成 DAT 格式 设 
proc print data-Human e noobs; 


run; 


ods listing; /* 打 


【程序 解读 】 
1) 程序 首先 处 理 


cards i 


默认 OUTPUT 窗口 */ 


逻辑 库 中 。 


2) filename outdat 


为 .DAT。 
3) ods 
即 filename 语 


listing | file-outdat;: 
句 定义 的 逻辑 名 outdat。 


'd:\jx\humandat.dat'; : 


9.2.7 ODS 输出 RTF 格 式 文件 
RTF 格式 文件 是 许多 软件 都 能 够 识别 的 文件 格式 ， 如 Word、WPS Office. Excel 等 都 可 


以 打开 RTF 格式 的 文件 。 

RTF (Rich Text Format， 多 文本 格式 ) 是 一 种 类 似 DOC 格式 (Word 文档 ) 的 文件 ， 有 
进行 编辑 ， 使 用 “写字 板 ” 
如 果 要 查看 RTF 格式 文件 的 源 代 码 ， 只 


很 好 的 兼容 性 ， 


使 用 Windows *Ig4F" 4 


打开 一 个 RTF 格式 文件 时 ， 将 看 到 文件 的 内 容 。 


用 “记事 本 ”将 它 打开 就 行 。 可 以 


文件 。 


对 普通 用 户 而 言 ，RTF 格式 是 一 个 很 好 的 文件 
进行 格式 化 文本 文档 的 传送 。 通 


, file= 4 


名 */ 


M. 


象 编辑 HTML 3 f 


生成 DAT 5&5 5 Ei, file-32 48 


的 “写字 板 ”就 能 打开 


名 指定 写 入 的 外 部 文 们 


在 句 数据 块 读 入 的 数据 ， 生 成 数据 集 Human e， 存 储 到 当前 临时 


建立 外 部 存储 路 径 文件 标识 和 文件 名 ， 扩 展 名 


FA, 


， 使 用 “记事 本 ”来 编辑 RTF 


要 使 
格式 


语法 格式 : ODS rtf 名 e=: 物 理 存储 路 径 \file_ name.rtf <style= 指定 输出 样式 >>; 
SAS 程序 语句 
ODS rtf close; 


【语法 解读 】 


1) RTF: 定义 输出 目 


2) file=“ 物 理 存储 路 径 \file_ name.rtf ^: 
不 指定 物理 路 径 系统 就 默认 输出 到 默认 物理 路 径 。 
3) ODS rtf close: close 语 


标 为 RTF 格式 文件 的 关键 
定义 输 H 


句 关闭 RTF 格式 通 i 


BRTF 格 式 文 件 的 物 型 


imm 
o 


格式 转换 工具 ， 用 于 在 不 同 应 用 程序 之 间 
兼容 性 是 RTF 的 最 大 优点 。 


存储 路 径 和 文件 名 ， 
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【 例 9.10】 对 例 9.8 进行 改造 ， 生 成 为 RTF 格式 文件 ， 文 件 名 为 humanrtf。 


* 存 储 rtf 文件 输出 到 物理 


路 径 ; 


* 数 据 集 存 储 dat 文件 输出 到 指定 物理 路 径 ; 


data Human e; 
title " [E 


input 
cards; 
上 海 10827 23019148 11.6 15258 74 
天 津 10399 12938224 10.3 7979 76 
北京 10377 19612368 12.6 18300 75 
江苏 7779 78659903 8.2 5817 76 
浙江 7524 54426891 8.3 9279 70 
内 蒙古 6978 24706321 7.5 3518 73 
广东 6440 104303132 8.9 7482 72 
辽宁 6232 43746323 7.3 4448 75 
山东 6040 95793065 8.1 3919 73 
福建 590036894216 8.3 6250 74 


, 


民生 活 质量 人 文 与 经 济 指标 分 析 "; 


area $ Human el-Human e5; 


run; 
option  nocenter; 人 全 局 变量 ， 使 显示 到 文件 的 内 容 不 居中 ， 输 出 居 左 */ 
ods listing close; /关闭 默认 输出 到 OUTPUT 窗口 */ 
ods rtf file='d:\jx\humanrtf.rtf ; /* 生 成 RTF 格式 设置 */ 
proc print data-Human e noobs; 
run; 
ods rtf close; /* M] RTF 输出 */ 
ods listing; — /# 打 开 默 认输 出 OUTPUT 窗口 */ 
【程序 解读 】 


1) ODS rtf file='d:\jx\humanrtf.rtf';: 打开 RTF 通 道 ， 把 输出 信息 写 入 到 RTF 格 式 文件 


humanrtf.rtf 中。 
2) ODS rtf close;:: 关闭 RTF 输 昌 


9.2.8 ODS 输出 到 打印 机 
ODS 输出 传输 系统 可 以 输出 到 打印 机 ， 


LC 


通道 


sa 


通 


o 


过 ODS 输出 传输 系统 语句 中 的 ODS PIRNTER 


语句 把 输出 对 象 输出 到 打印 机 打印 或 输出 到 打印 文件 。 


语法 格式 : ODS printer < 动作 >; 
ODS printer < 选项 > < 样式 >; 
【语法 解读 】 
ODS PRINTER: SAS 系统 采 
Action 选项 具有 以 下 4 个 动作 : 
1) 关闭 PRINTER 默认 输出 目标 。 
2) 指定 要 排除 的 输出 对 象 。 
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J ODS 的 PRINTER 输出 方式 ， 固 


定语 法 。 


3) 选择 输出 包含 的 输出 对 象 。 


4) 对 当前 要 排除 的 对 象 或 选择 的 对 象 信息 输出 到 SAS 日 a 


< 动作 > 具有 的 选项 语句 如 表 9-5 所 示 。 
表 9-5 ”< 动作 > 项 说 明 
选项 Wo 明 
CLOSE 关闭 打印 文件 输出 PRINTER 
EXLUDE exclusion(s)ALL|NONE 指定 PRINTER 要 排除 输出 的 对 象 
SELECT selection(sALLINONE 指定 PRINTER 要 选择 输出 的 对 象 


SHOW 


< 选项 > 常用 选项 语句 如 表 9-6 所 示 。 


指定 当前 选择 或 排除 的 对 象 信息 写 到 


表 9-6 option 常用 选项 说 明 


< 选项 > 常用 项 说 y 
指定 打印 文本 是 否 要 背景 颜色 ， 默 ; Sui 
BACKGROUND- _ 指定 打 文本 是 否 要 背景 颜色 ， 默 认 YES。 取 NO 不 要 背 
景 颜色 
对 输出 指定 颜色 模式 ， 默 认 值 YES， 用 样式 提供 的 颜色 ; 
COLORS COLOR-FULL 指定 对 文本 和 图 形 用 full 颜色 ; COLOR-GRAY 指 
定 对 文本 和 图 形 用 灰色 颜色 输出 ， COLOR=MONO 指定 对 文本 和 
图 形 单 色 输出 ，COLOR=NO 指定 不 用 样式 定义 提供 的 所 有 颜色 
指定 输出 打印 对 象 生 成 打印 格式 的 文件 ，FILE=' 文 件 存储 物理 
FILE= Hb; FILE=' 文 件 标 识 "， 需 要 和 FILENAME 语句 结合 ， 种 
FILENAME 语句 定义 的 文件 标识 。 默 认 PCL 格式 文件 
PCL 指定 生成 的 PCL 格式 文件 
PDF 指定 生成 的 PDF 格式 文件 
PS 指定 生成 PS 格式 文件 
PRINTER- 指定 输出 到 指定 打印 机 打印 ， 写 打印 机 名 字 
SAS 指定 用 SAS 系统 提供 的 打印 模式 


Style=: 指定 打印 样式 ， 如 D3D. BRICK. BEIGE 等 。 
民 2011 年 支出 情况 数据 汇总 资料 , 主要 涉及 生活 消费 


Ws 
m] 


[59.11] K 9-7 是 全 国 9 省 市 


Ku 


支出 情况 的 8 个 指标 ， 进 行 聚 类 分 析 ， 并 把 分 析 结 果 输 出 到 打印 机 。 
表 9-7 全 国 9 省 市 居民 2011 年 支出 情况 数据 

地 区 食品 消费 居 主 医疗 花费 交通 和 通信 教 ” 育 
KRE 117.72 1 200.16 6 000.10 800.32 6 800.87 
北京 2 300.12 1 600.88 7 898.92 1 300.89 12 000.56 
吉林 020.00 780.08 545621 678.21 4 000.32 
上 海 2 287.15 1 889.23 8356.21 1500.23 15 000.21 
江苏 317.88 467.62 163.16 293.07 6 700.21 
浙 洒 838.57 798.88 326.12 496.86 8 900.96 
福建 408.54 430.14 136.40 306.06 7 680.09 
山东 100.13 560.97 1 678.85 221.93 298.23 
广东 681.68 1 700.21 8 700.19 900.23 12 000.26 
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data diaocha; 


input diqu $ shipin house yiliao jiaotong education; 


cards; 
天 妾 1117.72 1200.16 6000.10 800.32 6800.87 
北京 2300.12 1600.88 7898.92 1300.89 12000.56 
吉林 1020.00 780.08 5456.21 678.21 4000.32 
上 海 2287.15 1889.23 8356.21 1500.23 15000.21 
江苏 1317.88 467.62 163.16 293.07 6700.21 

L 1838.57 798.88 326.12 496.86 8900.96 
福建 1408.54 430.14 136.40 306.06 7680.09 
山东 1100.13 560.97 1678.85 221.93 298.23 
广东 1681.68 1700.21 8700.19 900.23 12000.26 


*ods printer 输出 到 打印 机 或 打印 文件 ; 
ods listing close; /# 关 闭 LISTING 通道 */ 

ods printer; /输出 到 打印 机 */ 

proc cluster data =diaocha standard method =ward 


T 


outtree =jltree pseudo; 
copy diqu; 
run; 
proc tree data —jltree horizontal; 
id diqu; 
run; 
ods printer close; /关闭 打印 管道 *#/ 
ods listing; 


【程序 解读 】 


1) ods listing close;: 关闭 不 用 的 LISTING 通道 ， 


2) ods printer;: 把 下 面 的 分 析 输 出 到 打印 机 。 
3) ods printer close;: 当 打 印 输出 完成 时 把 打印 机 通道 关闭 。 
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以 减 小 运行 


Af tH 


LL 


压力 。 


第 3 篇 综合 实战 篇 


第 10 章 ， 信用卡 管理 系统 案例 


10.1 求 分 析 与 架构 设计 流程 


1. 业务 需求 分 析 
系统 需求 分 析 是 确定 业务 主题 的 依据 。 a i 
以 及 数据 库 业 务 主题 的 确定 是 进行 信用 卡 管理 系统 开发 的 第 
D d Eau t RESUME 
先 级 别 最 高 的 阶段 。 需 求 分 析 确 定 了 项 目 具体 实现 的 内 容 ， 也 是 开展 下 一 步 工 作 的 指南 。 通 
过 一 个 项 目 里 程 碑 基线 可 以 看 到 整个 项 目 开 发 阶段 时 刻 需要 回顾 项 目 需求 分 析 所 需要 实现 的 
功能 点 和 整体 架构 。 
信用 卡 业务 是 银行 业务 的 一 个 重要 组 成 部 分 。 信 用 卡 业 务 中 ， 利 润 率 和 风险 控制 是 两 个 
关键 指标 ， 而 建立 以 客户 为 中 心 的 管理 信息 系统 ， 通 过 对 大 量 信息 的 分 析 找 出 客户 消费 的 行 
为 、 规 律 和 违约 特征 ， 进 而 预测 客户 的 个 性 化 需求 、 及 时 响应 客户 的 需求 、 P 
客户 需要 的 产品 和 服务 ， 同 时 防范 信用 卡 风险 ， 既 可 以 赢得 客户 认可 又 可 以 提高 利润 率 。 朋 
前 大 多 数 信用 卡 业务 缺乏 真正 面向 市 场 、 面 向 客户 的 决策 支持 系统 ， 对 客户 的 判别 也 只 停留 
在 静止 、 片 面 、 主 观 的 水 平 ， 不 能 对 客户 做 出 动态 的 、 全 面 的 、 客 观 的 评价 。 为 了 更 好 地 引 
分 市 场 、 细 分 客户 ， 有 针对 性 地 进行 客户 营销 、 提 高 业务 管理 水 平 ， 建 立 基 于 数据 库 、 联 机 
分 析 处 理 、 数 据 挖掘 的 信用 卡 决 策 文 持 系统 ， 成 为 银行 信用 卡 提高 综合 竞争 力 的 必然 选择 。 
信用 卡 是 持 卡 人 可 和 凭 卡 在 特约 商户 购物 消费 ， 或 在 银行 提取 现金 ， 具 有 消费 信贷 功能 的 
信用 凭证 。 信 用 卡 是 传统 金融 业务 与 现代 信息 技术 相 结 合 的 产物 ， 日 益 成 为 当今 银行 业 新 兴 
的 高 速 增长 支付 消费 工具 。 随 着 信息 化 技术 的 发 展 ， 伴 随 着 信用 卡 业 务 在 我 国 的 高 速 发 展 ， 
信用 卡 风险 也 层出不穷 ， 信 用 卡 也 正在 成 为 我 国 金融 机 构 不 良 贷款 的 新 增 来 源 。 为 此 ， 如 何 
有 效 管理 和 破解 风险 ， 己 成 为 发 卡 行 关 注 的 重点 。 同 时 信用 卡 业务 对 外 资 银行 开放 ， 信 用 卡 
市 场面 临 国内 和 国外 的 竞争 ， 同 时 也 面临 巨大 的 风险 控制 挑战 。 目 前 信用 卡 业 务 在 国内 得 大 
了 很 大 的 发 展 ， 中 国 的 商业 银行 开展 信用 卡 业务 已 有 多 年 ， 相 关 数 据 积累 相对 完备 。 信 用 卡 
业务 的 经 营运 作 也 已 从 简单 的 扩大 规模 和 信用 卡 发 卡 量 到 信用 卡 风 险 控制 阶段 ， 各 商业 银行 
不 断 推 出 新 的 服务 品种 和 花样 繁多 的 增值 服务 , 提高 市 场 占有 率 并 强化 品牌 意识 以 获得 利润 。 
信用 卡 业 务 不 依靠 于 分 支 机 构 网 点 的 特点 将 使 银行 信用 卡 业务 面临 更 加 严酷 的 竞争 。 信 
用 卡 业 务 竞 争 本 质 上 就 是 客户 的 竞争 ， 而 且 是 优质 客户 的 竞争 。 日 常 运作 的 信用 卡 客户 交易 
的 日 常 交易 信息 和 客户 服务 基础 设施 ， 无 法 提供 众多 分 析 和 数据 挖掘 对 信用 卡 信息 的 分 析 和 
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客户 多 角度 的 分 析 。 面 对 积累 的 大 量 历史 数据 ， 联 机 事物 处 到 
轴 ， 数 据 仓库 为 信用 卡 未 来 的 发 展 提 作 


和 数据 控 和 
能 应 对 突 发 


的 、 复 杂 的 决策 分 析 


当前 外 
Hj, HEB 
银行 业 必 须 


用 卡 CCredit Card 


时 代 ， 办 卡 


手段 多 
0 解决 当前 风险 控制 问题 ， 尽 最 大 努力 减少 损失 是 所 有 银行 
内 的 应 用 越 来 越 广泛 ， 可 以 说 现在 已 经 进入 了 一 个 信 朋 
也 是 比较 宽松 的 。 国 


T o 
am AT: 


样 化 ， 贷 款 违约 客户 的 增多 


面 对 条 


) 在 国 
的 条 件 和 限 


E) 


卡 套现 、 信 
目前 ， 


D 信用 卡 市 场 规模 逐步 扩大 。 信 月 


阶段 ， 特 别 


2) 信用 卡 行业 竞争 激烈 。 随 者 


j 卡 交易 诈骗 等 


言 用 卡 业 务 发 展 


临 的 问题 是 收益 与 风险 同时 六 


E COLTPO 不 能 满足 多 维 的 分 析 
前 端 众多 分 析 和 数据 挖 扣 


的 数据 支撑 ， 同 时 


F 存 ， 伪 信息 对 信用 卡 行业 造成 的 损失 是 巨大 


， 都 给 


主要 呈现 以 下 特点 : 


内 信用 卡 面 | 


行业 带 来 了 


巨大 的 损失 。 为 防范 风险 ， 
临 的 问题 ， 信 


昌 卡 刷卡 消费 的 


备 的 主要 风险 是 伪 


言 恩 办 卡 、 信 用 


昌 卡 业务 已 经 由 消费 者 的 潜在 需求 逐渐 转向 了 快速 拓展 


是 随 着 消费 者 群体 的 年 轻 化 ， 对 信用 卡 的 使 用 已 经 越 来 越 多 样 化 。 


信用 卡 发 


下 


沁 构 的 不 断 增 加 ， 而 且 发 卡 机 构 发 行 的 信用 卡 


在 提取 现金 、 消 费 信贷 等 方面 基本 功能 都 比较 相似 ， 因 此 市 场 竞争 也 越 来 越 激烈 。 同 时 ， 我 


Ee 


] 


的 信用 
银行 合作 


BN 


[t 


市 场 正 在 面临 着 来 


自 诸多 外 资 银行 


4 竞争 ， 


y 


资 银行 已 经 开始 采取 间接 地 与 中 资 


方式 渗入 中 国 市 场 ， 


竞争 ， 更 加 大 了 信用 


FE 市 场 的 竞争 压力 。 


信用 卡 凭借 其 灵活 、 方 便 、 快 捷 的 特点 ， 逐 步 渗 透 到 消费 者 和 


消费 信贷 的 
成 的 损失 也 


重要 形式 。 随 着 信 


BORED, fim 


> SH SELBE 


Hi 


以 下 几 个 方面 : 


通过 其 在 信用 


D fs 


风险 。 信 用 卡 的 信和 有 


HAS Ze dH I 


款项 ， 给 发 卡 银行 带 来 损失 的 可 能 性 。 信 用 
因 主 要 有 持 卡 人 客观 上 形 失 偿还 信用 透支 的 能 力 ;， 持 卡 人 的 授信 额度 越 大 ， 信 用 
EF 人 主观 上 没有 偿还 债务 的 意愿 ， 持 


产生 的 原 


风险 也 就 越 大 ;， 持 1 


还 款 义 务 。 


2) 操作 风险 。 操 作风 险 是 指 | 
所 造成 损失 


风险 是 信用 


的 日 


上 运行、 结算、 配套 服务 等 方面 的 优越 性 参与 


常生 活 中 ， 已 经 成 为 了 


的 不 断 普 及 ， 信 用 卡 相关 风险 发 生 的 频率 也 越 来 越 高 ， 造 
业 带 来 无 法 预计 的 损失 。 目 前 ， 信 用 卡 业 务 面 临 的 风险 主要 有 


于 持 卡 人 违反 约定 ， 不 能 按时 足 额 归还 透 文 
FE 风险 中 最 主要 的 风险 。 信 


j 风险 


不 完善 或 有 问题 的 内 前 


的 风险 。 一 些 发 卡 行 片面 追求 发 


核 ， 信 | 


] 


下 


安全 


a au 性 o 


3) 欺诈 风险 。 欺 诈 


可 能 性 。 


建立 以 客户 为 中 心 的 信用 


目标 客户 不 断 扩大 ， 逐 步 向 大 众人 群 渗透 。 
卡 方式 ， 以 吸引 潜在 持 卡 人 ,这 很 大 程度 上 依赖 于 持 11 


风险 是 指 由 


FEAR AHH, 


实现 对 客户 
支持 ， 


并 达到 风险 治理 
制 与 利润 分 析 四 


p 


治理 、 客 户 消 费 行为 、 成 本 收益 、 
和 控制 、 客 户 关 系 治 到 
大 应 用 目标 。 


2. 架构 设计 流程 
数据 仓库 技术 是 实现 将 数据 转换 为 信息 和 知识 并 有 效 支 持 决策 分 析 的 重要 手段 。 数 据 
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AE 


T 


# 量 和 市 场 占有 率 ， 放 宽 了 信用 
发 卡 机 构 通常 采用 
= 人 的 个 人 信 


FE 业务 数据 仓库 ， 便 于 方便 企业 各 级 工作 人 员 获 取 各 类 
捉 、 绩 效 评估 、 营 销 战略 等 决策 


人 故意 逃避 责任 ， 拒 不 


BTE x 


、 人 员 及 系统 或 外 部 事件 


下 


FE 申请 人 的 审 


“ 免 担 保 ” 的 发 
] 卡 业务 的 


j 来 保证 信 


而 发 生 损失 的 


= 


[SPA 


目标 的 


与 个 性 化 服务 、 商 户 分 析 与 市 场 策 略 、 费 用 控 


架构 设计 作为 数据 仓库 技术 中 的 一 项 重要 技术 ， 是 对 系统 逻辑 体现 结构 和 建 模 方 式 的 描 
述 ， 直 接 决 定 了 数据 仓库 系统 的 可 管理 性 和 可 扩展 性 ， 在 数据 仓库 系统 的 建设 过 程 中 处 于 
重要 地 位 。 

对 于 一 个 大 型 数据 仓库 项 目 来 说 ， 一 般 将 设计 分 为 ODDS、DW、DM 三 大 层次 。 设 计时 
需要 考虑 以 下 两 个 方面 : 

(1) 前 端 展 现 

前 端 展 现 是 给 客户 的 最 终 用 户 看 的 ， 客 户 只 关心 能 给 他 们 带 来 什么 ， 是 否 能 满足 他 们 的 
报表 、 数 据 挖掘 、 查 询 和 分 析 需 求 。 

(2) 架构 设计 中 包括 的 内 容 

架构 中 重点 是 描述 系统 的 结构 ， 以 及 他 们 之 间 的 关联 、 交 互 接口 。BI 系统 可 以 划分 成 业务 模 
型 、 元 数据 、 数 据 质 量 、 接 口 平台 、 报 表 集 市 、 指 标 库 等 。 

业务 模型 是 存放 业务 数据 的 结构 ， TEAR ODS y DWE CEH DA DL 它 
是 支撑 业务 分 析 需 求 的 ， 如 报表 、 数 据 挖 掘 、OLAP、 专 题 应 用 等 。 而 元 数据 为 整个 系统 数据 
Mie perdus A ced n 也 就 是 说 数据 从 源头 开始 到 最 终 的 用 户 眼 前 ， 其 来 
龙 去 脉 ， 每 个 环节 的 状态 都 需要 掌握 。 而 数据 质量 模块 是 为 衡量 数据 源 质量 ， 为 ETL 过 程 处 
理 质 量 提供 支撑 。 接 口 平 台 是 处 于 源 系 统 和 数据 仓库 系统 之 间 的 ， 方 便 明 确 界 定 双方 职责 的 
模块 。 数 据 挖 掘 为 数据 挖掘 工具 提供 数据 支撑 ， 报 表 集 市 为 报表 应 用 提供 支持 ， 指 标 库 为 绩 
效 管 理 需 求 提供 支持 ， 后 三 者 其 实 还 可 以 归 入 业务 模型 一 类 ， 因 为 它们 都 是 服务 于 分 析 需 求 
的 。 之 所 以 分 成 若干 模块 ， 是 为 了 让 架构 清晰 ， 降 低 这 些 模块 之 间 的 耦合 。 将 系统 的 用 户 分 
为 两 大 类 角色 : 

1) 系统 运营 角色 ， 对 系统 的 正常 运行 、 维 护 负责 。 

2) 业务 分 析 角 色 ， 需 要 从 这 个 系统 得 到 数据 分 析 的 功能 

系统 运营 角色 不 直接 和 业务 模型 这 个 模块 打交道 。 业务 分 析 角 色 分 析 数 据 来 源 都 将 来 自 
业务 模型 模块 。 而 在 架构 设计 中 ， 重 点 应 该 放 在 如 何 满足 系统 管理 用 户 的 需求 上 面 。 

数据 仓库 设计 阶段 ， 开 发 设计 者 是 其 架构 最 重要 的 用 户 ; 对 于 开发 实施 人 员 ， 需 要 进行 
系统 部 署 、ETL 的 开发 调试 、 质 量 的 稽核 ， 设 计 人 员 需 要 进行 模型 的 变更 、 系 统 调 优 、 作 系 
统一 致 性 分 析 等 ， 而 系统 管理 员 则 需要 监控 ETL 过 程 、 监 控 系 统 运行 、 响 应 系统 警报 、 接 口 
数据 管理 等 。 这 些 都 可 以 看 做 是 用 例 。 

信用 卡 客户 管理 数据 仓库 系统 的 主要 功能 是 利用 业务 系统 所 积累 的 有 关 信 用 卡 客户 的 各 
类 数据 来 获取 信息 ， 从 各 系统 提取 数据 装载 到 目标 数据 仓库 中 ， 为 前 端 应 用 层 提 供 联 机 分 析 
的 数据 ， 满 足 不 同 的 分 析 需 求 。 

以 客户 为 中 心 的 客户 管理 数据 仓库 系统 的 架构 主要 由 3 个 部 分 组 成 : 建 模 系统 、ETL 系 
统 和 OLAP 系统 。 其 技术 实现 需要 考虑 以 下 3 个 方面 : 

(OD 建 模 系统 
建 模 系统 主要 用 于 辅助 设计 人 员 进 行 数据 仓库 设计 。 由 于 模型 是 对 现实 事物 的 反映 和 抽 
象 ， 所 以 它 可 以 帮助 设计 人 员 更 加 清晰 地 了 解 客观 世界 。 对 于 数据 仓库 而 言 ， 数 据 仓 库 建 模 
在 业务 需求 分 析 之 后 开始 ， 是 数据 仓库 构造 工作 正式 开始 的 第 一 步 ， 正 确 而 完备 的 数据 模型 
是 用 户 业 务 需求 的 体现 ， 是 数据 仓库 项 目 最 重要 的 关键 技术 因素 。 

客观 管理 数据 仓库 系统 属于 银行 信用 卡 业务 ， 其 业务 复杂 、 机 构 复 杂 、 系 统 庞 大 ， 因 此 
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数据 仓库 建 模 阶段 必须 考虑 以 下 几 个 方面 : 


1) 满足 不 同 
在 进行 数据 模型 设计 站 


j 户 的 需求 。 信 上 


此 务 ， 如 


用 卡 积 分 业务 、 信 ) 


业务 、 信 


iN AE 


J FARE E 


次 的 组 乡 


Ato 
= 
B 


ie 


2) 


的 设计 
够 保证 查询 的 效率 。 

3) 支持 需求 的 变 
需求 变化 会 越 来 


大 的 数据 仓库 ， 其 信 


顾 效率 与 数据 粒度 
可 以 保证 信息 访问 的 灵活 性 ， 
| 必须 在 这 矛盾 的 两 者 


越 频繁 。 数 据 模型 的 设 
4) 避免 对 业务 运营 系统 造成 影响 。 信 用 卡 


=] 


的 需要 。 数 据 
但 同时 却 降低 了 查询 的 效率 
FP 取 得 平衡 。 数 据 模型 设计 既 


上 卡 业务 流程 比较 复杂 , 数据 仓库 系统 涉及 的 业务 有 
4 时 候 必 须 考虑 到 不 同业 务 产品 、 不 同业 务 部 门 、 不 同 
用 户 的 信息 需求 。 数 据 仓库 应 该 支持 企业 的 各 种 4 
申请 
对 信息 的 需求 各 有 不 同 ， 应 考虑 业务 、 风 险 、 催 
! 所 关心 的 信息 不 同 ， 数 据 模型 应 支持 各 层次 信息 需求 。 

粒度 和 查询 效率 从 来 都 是 矛盾 的 ， 细 小 


里 、 财 务 等 各 个 部 门 的 需要 ， 不 同 


有 户 众 多 ， 
层次 、 不 同 级 别 
信用 卡 客户 基本 信息 管理 业务 、 

IL SET 


不 同业 务 的 特点 ; 不 同 的 } 


i mF 


Ml 


的 数据 粒度 
并 占用 大 量 的 存储 空间 ， 数 据 模型 
可 以 提供 足够 详细 的 数据 支持 又 能 


化 。 信 用 卡 用 户 的 信息 需求 随 着 


市 场 的 变化 而 变化 ， 随 着 竞争 的 激化 ， 


适 
E 


计 必 须 考 虑 如 何 


) 


点 和 满足 需求 的 变化 。 


数据 仓库 系统 是 一 个 每 天 都 在 长 


息 存 储 每 天 都 在 增长 ， 其 运行 占 


很 多 的 资源 ， 比 如 网 络 资源 、 


系 


统 资源 、 存储 资源 等 ins j 


影响 。 


5) 考虑 未 来 的 可 扩展 性 。 信 
四 模型 作为 数据 仓库 的 灵魂 必须 提供 


系统 ， 数 和 


| 卡 客户 管理 数据 仓库 系 
可 扩展 的 能 


行 数据 模型 设计 的 时 候 也 需要 考虑 如 何 减 少 对 业务 系统 性 能 多 


统 是 一 个 与 信 有 
5. d 


H-RATAE I] 2 RE BA] 
进行 数据 模型 设计 时 必须 考 


虑 未 来 的 发 展 ， 未 来 需要 改动 时 不 需要 对 数据 仓库 中 原 有 的 系统 进行 大 规模 的 修改 。 


"信用 


FAS 


] 里 数据 仓库 的 数据 量 比较 大 , 所 以 数据 模型 的 技术 功能 必须 考虑 周全 ， 
从 技术 功能 划分 ， 需 要 考虑 以 下 几 点 : 


D 分 段 存储 


X. 


于 数据 仓库 中 的 数据 结构 和 组 织 方 


式 具有 很 大 的 差异 所 以 原始 业务 系 


统 的 数据 必须 经 过 严格 的 抽取 、 了 映射 和 转换 ， 数 据 的 整合 过 程 十 分 复杂 ， 通 常会 耗费 比较 长 


的 处 到 


时 间 。 如 果 从 联机 系统 直接 
间 ， 为 了 避免 影响 联机 系统 的 运行 ， 数 


| 取 数 据 到 数据 仓库 ， 


分 段 存储 区 是 指 为 了 保 订 
ne 


诸 区 ， 再 从 分 段 存储 


统 原 始 数 据 进 入 数 
输 到 分 段 存 
数据 仓库 9 
数据 的 ! 
种 不 同 存储 方式 ， 分 另 
分 段 存储 区 中 的 数据 。 
$E AREE 


rH 


FE 数据 移动 的 顺利 进行 而 入 
库 前 的 缓存 


| 对 应 于 不 同和 运营 系统 的 数 和 
通过 分 段 存 储 区 可 以 减少 对 各 系统 


影响 。 实 际 开发 运营 中 的 经 验 可 以 看 到 跨 网 络 的 数据 库 操作 会 大 大 降低 数 


效率 ， 而 且 处 m 


的 复杂 程 


度 越 高 ， 网 络 对 处 到 


数据 仓库 后 台数 据 数 扩 


变化 对 数据 移动 整合 系统 
的 备份 数据 ， 可 以 直接 从 分 段 存储 区 进行 数 所 


开始 。 
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处 理 过 程 的 实现 , 其 作为 数据 缓存 
9 影响。 如 果 数 据 处 理 过 程 


外 源 。 数 据 成 功 导 入 数据 仓库 之 后 


效率 的 影响 越 严 重 ， 分 段 存 储 区 可 以 大 大 力 


FP 发 生 系统 故障 ， 作 为 数 


则 必定 会 占用 许多 系统 的 资源 和 时 


模型 的 设计 中 引入 分 段 存 储 区 的 概念 。 

F 设 的 阶段 性 数据 存储 空间 ， 它 是 系 
区 ,需要 进入 数据 仓库 的 各 个 系统 的 数据 首先 直接 快速 传 
区 经 过 清洗 、 转 换 、 映 射 等 复杂 的 数据 移动 处 玫 
。 从 各 系统 到 分 段 存 储 区 的 数据 传输 ,应 尽量 避免 进行 复杂 的 数据 处 天 
类 速 导入 而 尽量 减 小 对 各 系统 造成 的 压力 。 分 段 存储 


转移 到 目标 
EE， 以 保证 
区 的 数据 有 关系 数据 库 和 文件 两 
， 应 清空 
Ho 避免 复杂 数据 转换 对 
居 处 理 的 
ME 
各 系统 
仓库 系统 


资源 的 占 月 


X. 可 以 在 一 定 程度 上 屏蔽 


仓库 数据 恢复 ， 而 不 必 


有 从 各 系统 原始 数据 


2) 基础 数据 仓库 。 信 用 卡 客户 管理 数据 仓库 的 基础 数据 仓库 存储 所 有 最 详 


据 。 


的 业务 数 


该 层 数 据 直 接 来 源 于 对 分 段 存储 区 数据 的 清洗 和 加 工 ， 属 于 未 经 汇总 的 数据 ， 但 数据 的 


组 织 方式 可 能 已 经 完全 不 同 于 原始 的 业务 系统 。 


形式 
统 中 


户 卡 数据 等 基本 数据 。 由 于 基 而 


根据 业务 需求 的 不 同 ， 基 础 数据 仓库 的 组 织 


以 三 范式 模型 为 主 ， 在 有 的 系统 中 也 可 能 采用 星 形 或 雪花 模型 。 在 银行 业 的 数据 仓库 系 


， 基 础 数据 仓库 数据 包括 未 经 汇总 的 客户 交易 数据 、 客 户 积 
数据 仓库 数据 是 对 原始 业务 数据 的 原 玫 


非常 庞大 ， 根 据 不 同业 务 的 需要 数据 保留 的 时 


市 ， 


间 在 半年 到 三 年 不 等 。 


3) 数据 集 市。 根据 业务 需求 将 信用 卡 客 广 


' 管 理 数据 仓库 数据 分 类 成 几 个 不 同 的 数据 集 
每 个 数据 集 市 完成 不 同 的 分 析 和 查询 需求 ， 数 据 集 市 中 的 数据 通常 由 基础 数据 仓库 的 详 


细 数 据 聚 合 而 来 ， 根 据 数据 聚合 程度 的 不 同 包含 轻 度 聚 合 、 中 度 聚 合 和 高 度 聚 合 3 


层次 。 


(2) ETL 设计 


ap 


数据 
务 数 
形成 
iat. 


汇总 的 方式 将 依据 数据 量 的 大 小 和 使 用 频 度 综合 考虑 。 


信用 卡 系统 的 数据 来 源 于 前 端 事务 环境 


i 


存放 在 服务 器 上 的 数据 库 〈《 如 Oracle) 系统 中 ， 主 机 文人 


据 和 主机 文件 数据 必须 先 通过 数据 抽取 、 
符合 要 求 的 数据 。 不 同 级 别 的 综合 数据 


的 联机 事务 数据 和 主机 


转换 、 清 晰 、 集 成 后 ， 


分 数据 、 客 户 账户 数据 、 客 
多 再 现 ， 所 以 数据 量 会 


不 同 的 


ETL 过 程 是 数据 仓库 的 核心 。ETL 工具 的 选择 和 效率 直接 影响 到 数据 仓库 的 效率 和 前 段 
的 应 用 。 


文件 数据 ， 由 于 事务 
F 以 文件 的 形式 存储 ， 
再 装载 到 数据 仓库 中 ， 


因此 事 


按照 不 同 汇总 粒度 计算 获得 ， 并 且 要 加 上 时 


ETL 过 程 就 是 实现 数据 清洗 、 抽 取 、 转 换 、 加 载 的 过 程 ， 属 于 动态 过 程 ， 
程 的 一 个 必需 的 步骤 。 这 里 需要 用 到 ETL 工具 (Extract Transformation Loading), W SAS T 
H~ DataStage 工具 ， 主 要 负责 将 信用 卡 客户 管 


是 数据 仓库 工 


理 数 据 仓库 所 需要 的 数据 转换 成 合适 的 数据 格 


式 与 数据 内 容 ， 并 加 载 到 数据 仓库 中 。ETL 分 为 ETL 设计 模块 、ETL 调度 模块 、ETL 关系 数 


据 库 抽取 /转换 模块 、ETL 文 们 


转化 和 加 载 的 主要 过 程 如 下 : 


据 文件 、 日 志 元 数据 文件 、 数 据 库 模 式 文件 。 


1) ETL 设计 模块 定义 ETL 转换 加 载 过 程 ， 


处理 模块 、ETL 加 载 模块 、ETL 中 间 层 管理 


2) ETL 调度 是 执行 ETL 处 理 各 模块 的 调 


件 、 脚 本 元 数据 文件 、 日 志 元 数据 文件 ， 然 后 开启 调 


接 的 各 个 执行 模块 上 执行 。 


EE 模块。 数据 的 抽取 、 


同时 生成 数据 源 访问 元 数据 文件 、 脚 本 元 数 


度 过 程 ， 通 过 调度 器 打开 数据 源 访问 元 数据 文 


3) ETL 各 作业 设计 好 后 通过 专门 的 调度 工 


动 调度 作业 。 


(3) OLAP 系统 


以 客户 为 中 心 的 客户 管理 数据 仓库 的 目的 是 为 OLAP 系统 服务 提供 
存储 数据 ， 主 要 为 决策 支持 和 数据 挖掘 提供 服务 ， 主 要 包括 的 数据 有 3 
整 的 历史 数据 ; 第 二 部 分 是 已 物化 的 数据 立方 体 ， 由 于 物化 的 数据 
中 ， 为 挖掘 节省 了 时 间 ; 第 三 部 分 是 元 数据 。 


度 服 务 ， 自 动 将 任务 分 配 到 与 调度 器 连 


具 可 以 调度 每 一 个 作业 , 根据 时 间 设 置 定时 启 


数据 支撑 。 


AU. 第 


TIEFER EE 


数据 仓库 


一 部 分 是 完 


信用 卡 客户 管理 数据 仓库 ETL 处 理 采 用 SAS 或 DataStage 工具 实现 , 系统 组 成 如 图 10-1 
所 示 。 


信用 卡 OLTP 
数据 库 系 统 


信用 卡 主机 
文件 系统 


10.2 ETL 层 数据 处 理 


ETL 是 数据 仓库 的 核心 。 
实现 数据 仓库 开发 的 核心 部 分 。 
1. 客户 管理 系统 ETL 概 述 
以 客户 为 中 心 的 信和 
数据 文件 、 各 分 行 ， 因 此 其 数据 源 
的 范围 占 


口 


(1) 客户 信息 数据 文件 


客户 信息 数据 文件 存储 客户 的 基本 信息 ， 如 客户 姓 


联系 方式 等 基本 信息 。 
(2) 账户 信息 数据 文件 


理解 ETL 流程 与 设计 过 程 


j 卡 管理 系统 数据 仓 
比较 复杂 。 
整个 ETL 开发 过 程 的 30% 的 时 间 。 

对 数据 仓库 而 言 其 数据 的 装载 是 在 ETL 过 程 这 步 完成 的 ， 因 
数据 仓库 中 重要 的 环节 。 对 于 本 案例 而 言 外 围 


El 
AE 


实际 的 开发 


里 数据 仓库 系统 


FP 分 析 外 部 数据 源 ， 确 


数据 源 如 下 : 


名 、 


实现 ETL 的 一 个 关键 环节 ， 


库 的 数据 分 别 来 自 OLTP 〈 联 机 事物 处 理 )、 外 部 


定 提取 数据 


此 合理 的 规划 和 设计 是 整个 
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FE 别 、 身 份 证 号 、 原 


工作 单位 和 


账户 信息 数据 文件 存储 客户 账户 信息 ， 如 账户 状态 、 账 号 、 账 户 标 识 等 基本 信息 。 


(3) 卡 信息 数据 文件 


卡 信息 数据 文件 存储 卡片 信息 ， 如 
(4) 交易 信息 数据 文件 


FE 标识 、 客 户 姓名 、 最 高 额度 等 基本 信息 。 


交易 信息 数据 文件 记录 客户 刷 


言 用 


交易 时 间 、 交 易 额 度 、 消 费 方式 等 基本 交易 信息 。 


(50 客户 消费 行为 数据 文件 


9 基本 信息 ， 如 交易 的 卡号 、 账 号 、 客 户 姓名 、 


客户 消费 行为 数据 文件 是 对 客户 消费 行为 记录 的 基本 信息 ， 如 卡号 、 客 户 姓 名 、 消 费 额 


度 、 
(6) 催收 信息 数据 文件 


消费 时 间 、 消 费 方式 、 客 户 状 态 等 基本 消费 信息 。 


岩 款 信息 


MEIR Hs ^ 
式 、 实 际 催收 还 款额 等 基本 催收 信息 。 
(7) 客户 积分 数据 文件 


客户 积分 数据 文件 是 银行 对 刷卡 客户 给 予 积 分 的 一 种 消费 刺激 策略 ， 记 录 客 户 
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催收 信息 数据 文件 是 银行 对 违约 客户 进行 记录 的 数据 文件 ， 
如 客户 姓名 、 违 约 额 度 、 违 约 天 数 、 催 


记录 客户 违约 的 信息 和 和 
收 员 编号 、 催 收 额度 、 催 收 时 间 、 催 收 方 


行 


n-F25-Y 


记 入 积分 的 信息 ， 如 客户 姓名 、 


等 基本 积分 信息 。 


(85 信用 


F 申请 数据 文件 
信用 卡 申 请 数据 文 伯 
度 ， 记 录 申 请 客户 的 基本 情况 ， 
(9) 风险 信息 数据 文件 
风险 信息 数据 文件 是 对 风险 客户 情况 的 信息 记录 ， 通 过 
约 ， 记 录 客 户 风 险 信息 的 数 所 


(10) 营销 言 息 数据 文 ág 


F 是 对 申请 信用 卡 客户 的 基本 信息 的 采集 ， 


如 客户 姓名 、 拆 


卡号 、 交易 额度 、 本 E 


EI]. 


TA. | 


总 积分 、 兑 换 积分 、 


赠送 积 


营销 信 
营销 信息 


的 数据 ， 如 营销 商户 、 营 销 产 品 


数据 是 银行 和 商户 达成 协议 ， 刺 激 消费 ， 达 到 共 


H^ 营销 评 


Jr SEXE EHE 


通过 此 信息 来 了 解 客户 的 信用 
工作 年 限 、 年 收入 、 婚 姻 状 况 等 基本 信息 。 


此 数据 可 以 判定 哪些 客户 可 
居 ， 如 客户 姓名 、 卡 号 、 违 约 类 型 、 欠 款额 和 违约 情况 等 基本 信息 。 
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用 十 


Em. 


2. 信息 管理 系统 表 结构 与 说 明 
(OD 客户 信息 表 


客户 信息 表 存 储 信用 


SOL 的 本 


方式 ， 记 录 营 销 信 息 


FE 客户 的 基本 信息 ， 是 对 客户 基本 资料 的 存储 。 实 际 应 用 中 客户 信 


奶 表 数据 装载 一 般 来 自 OLTP 或 主机 文件 。 客 户 信息 表 如 表 10-1 Bras. 
表 10-1 客户 信息 表 (cust info) 
字 段 名 英文 字段 名 类 型 & dk 

客户 号 Custer id char(8) 客户 标识 号 

FE Card id Char(16) 

姓名 Name Varchar2(10) 客户 姓名 

性 别 sex Char(1) F: k, M: 男 

证 件 号 id Varchar2(18) 存储 证 件 号 码 

出 生日 期 birth date 

婚姻 状况 Marital status Char(1) N: 未 婚 ，Y: GUB 

学 历 xl Varchar2(10) 只 填 最 高 学 历 

内 zw Varchar2(12) 

工作 年 限 Work year Number(2) 

也 址 addr 1 Varchar2(30) 前 所 用 地 址 

也 址 2 addr 2 Varchar2(30) 身份 证 地 址 

Ig zone Varchar2(10) 

FH mobile Char(11) 

固定 电话 phone Varchar2(12) 

电子 邮件 E_mail Varchar2(30) 电子 邮箱 

国籍 gj Varchar2(10) 

客户 申请 日 期 Sq date date 

客户 状态 status Char(1) 0: 正常 ，1: 禁 

客户 级 别 Cust level Char(1) 0: 普通 级 别 ，1: VIP 级 别 
言 用 状态 Credet statu Number(]) 0: 良好 ，1: 违约 ，2: 优秀 
账单 日 期 Zd date date 客户 国定 账单 日 期 每 月 几 号 
账单 邮寄 地 址 Zdyj addr Varchar2(30) 

账单 邮寄 方式 Zdyj fs Char(1) 0: 纸 质 账单 ，1: 电子 账单 
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(2) 账户 TEAK 
账户 信息 表 存 储 客户 基本 的 账户 信息 ， 是 对 信用 卡 账户 的 描述 和 信息 记录 ， 如 表 10-2 所 示 。 


表 10-2 账户 信息 表 (account info) 
字 段 名 英文 字段 名 类 m # È 

客户 号 Custer id char(8) 客户 标识 号 
账号 account id Char(16) 
卡 类 Card type Char(10) 
姓名 Name Varchar2(10) 客户 姓名 
账单 zd date date 
分 行 号 Branch id Char(9) 

卡 日 期 Open date date 信用 卡 开 卡 日 期 
账户 状态 Zh status Number(1) 0: 正常 ，1: 销 户 
卡 状态 status Char(1) 0: IET, 1: 禁 
卡 级 别 Card level Char(1) 0: 15382854, 1: VIP 级 别 
账户 活跃 度 hy flag Char(1) 0: 一 般 ，1: 很 活跃 ，3: 不 经 常用 此 卡 
每 天 取现 额度 Ev ed Number(9) 
宽 限 期 Kx days number(4) 

(3) 客户 卡 信息 


客户 卡 信息 记录 客户 用 卡 


表 10-3 卡 信 息 表 (card_info) 


情况 ， 如 表 10-3 所 示 。 


字 段 名 英文 字段 名 类 型 备注 

账号 CARD ID Char(16) 
客户 号 Custer id char(8) 客户 标识 号 
卡号 Carder id Char(16) 
卡片 类 型 Card type Char(10) 
姓名 Name Varchar2(10) 客户 姓名 
主 附 卡 标识 Master type Char(1) 0: 主 卡 ，1: 附 卡 
分 行 号 Branch id Char(9) 
客户 额度 ed Number(9) 卡 信用 额度 
临时 额度 Ls ed Number(9) 根据 需要 临时 调整 额度 
调整 日 期 tz date date 临时 额度 调整 日 期 
取现 额度 qx ed Number(9) 言 用 卡 提取 现金 最 高 额度 
分 期 额度 Fq ed Number(9) 分 期 还 款额 度 
上 期 还 款额 度 sqhk ed Number(9) 

上 期 还 款 日 期 sqhk date date 

本 期 还 款额 度 Bqhk ed Number(9) 

本 期 还 款 日 期 Bqhk date date 
欠 款 额度 Qk ed Number(9) 
欠 球 标识 Qk type Char(1) 0: PREK l: 欠 球 
违约 天 数 Wy days Number(3) 
违约 次 数 Wy times Number(2) 
违约 标志 Wy flag Char(1) 0: 无 违约 ，1: 轻 度 违约 ，3: 严重 违约 


(4) 交易 信息 表 


交易 信息 表 记 录 客 户 刷 信用 


交易 的 信息 ， 如 表 10-4 所 示 。 


表 10-4 ZEAR (Transaction inf) 
字 段 名 英文 字段 名 类 型 备 8 
账号 CARD ID Char(16) 
客户 号 Custer id char(8) 客户 标识 号 
卡号 Car id Char(16) 
卡片 类 型 Card type Char(10) 
姓名 Name Varchar2(10) 客户 姓名 
消费 额度 Xf ed Number(9) 
消费 商户 Xf sh Varchar2(30) 
消费 地 点 Xf addr Varchar2(30) 
消费 时 间 xf date date 
消费 类 型 xf type char(]) 1: 购物 ，2: 取现 金 
本 期 消费 累计 笔 数 bqXf ljbs Number(4) 
消费 手续 费 Xf sxf Number(9) 
消费 利息 xf Ix Number(9,3) 
消费 当前 利率 xf dqlv Number(5,3) 
消费 积分 xf jf Number(9) 
还 款 交易 额度 hk ed date 
卡片 状态 card status Char(1) 0: 正常 ，1: 封锁 
(50 客户 信用 卡 申请 信息 表 
客户 信用 卡 申请 信息 是 客户 申请 某 类 信用 卡 时 所 填写 的 信息 ， 通 过 此 信息 可 以 查询 客户 


的 信用 信息 有 无 违约 记录 ， 如 表 10-5 所 示 。 


表 10-5 信用 卡 申请 表 (Apply credit) 


字 段 名 英文 字段 名 类 H 备 dk 
申请 编号 Aplication bh Varchar2(8) 申请 标识 号 
申请 日 期 Application dte date 
姓名 Apl name Varchar2(10) 
出 生日 期 Birth dte date 
性 别 SeX char(1) F: k, M: 男 
证 件 类 型 zj type char(1) 
证 件 号 码 zj id Varchar2(18) 
学 历 education Varchar2(10) 
婚姻 状况 Marr. status Char(1) N: 未 婚 ，Y: 已 婚 
手机 号 码 mobile char(11) 
现 住地 址 Xz addr Varchar2(30) 
电话 phone Varchar2(12) 


CHR) 


字 段 名 英文 字段 名 Jom 备注 
工作 单位 work dw Varchar2(30) 
现 单位 工作 年 限 Xz work y Interger(2) 
IREK zc Varchar2(16) 
年 收入 Year earn Number(9) 
工作 年 限 gz year Number(2) 
申请 额度 Sq ed Number(9) 
父亲 姓名 father Varchar2(10) 
母亲 姓名 mother Varchar2(10) 
父母 联系 方式 Fm phone Varchar2(12) 
个 人 征 信 zx Char(1) 0: 无 违约 记录 ，1: 有 违约 记录 
审批 人 编号 Sp_bh Char(8) 
审批 人 姓名 Sp_name Varchar2(8) 
评分 值 Pf value Integer(3) 
评分 结果 Pf jg Char(1) i 一 般 ，1: 有 风险 ， 2: RAF, 3: 
建议 额度 Jy. ed Number(9) 


(6) 客户 积分 信息 表 


客户 积分 是 对 客户 刷 
易 数 据 ， 根 据 市 场 营 销 计划 ， 设 定 相 应 规则 ， 进 行 分 类 


积分 表 ， 如 表 10-6 所 示 。 


表 10-6 客户 积分 表 (cust Integra 


FE 送 积 分 ， 是 刺激 刷卡 消费 的 


[总 形成 积分 并 进行 匠 


营销 方式 。 通 过 对 客户 行为 、 交 


馈 客户 ， 客户 


字 段 名 英文 字段 名 类 型 备 dk 
账号 Card id Char(16) 
客户 号 Custer id char(8) 客户 标识 号 
卡号 Ca id Char(16) 
姓名 Name Varchar2(10) 客户 姓名 
币 种 bz type char(1) B: 人 民 币 ，W: 外 币 
消费 额度 Xf ed number(9) 
积分 类 型 Jf type char(1) 1: 消费 积分 ，2: 取现 积 4 
总 积分 jf Number(9) 
积分 计算 规则 Jfjs rule Number(1) o S RT QUIE 
本 期 兑换 积分 bgdh jf Number(9) 
本 期 积分 bg jf Number(9) 
苑 换 类 型 dh Ix Char(1) W: 换 物 品 ，m: 换钱 
本 期 奖励 积 bqjl_jf Number(9) 
本 期 奖励 原因 bgjl yx Varchar2(30) 
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CI) 客户 消费 TAK 


客户 消费 信息 表 存 储 客 户 消费 信息 的 记录 , 记录 客户 每 笔 消 费 交 易 的 详细 信息 , 如 表 10-7 
所 示 。 
表 10-7 客户 消费 行为 表 (Consumer behavior) 
字 段 名 英文 字段 名 类 型 备 注 
客户 号 Custer id char(8) 客户 标识 号 
C id Char(16) 
Card type Char(10) 
Name Varchar2(10) 客户 姓名 
Xf ed Number(9) 
Xf sh Varchar(9) 
Xf addr Varchar2(30) 
xf date date 
xf type char(]) 1: 购物 ，2: 取现 金 
本 期 消费 累计 笔 数 Xf bs Number(4) 
每 天 消费 笔 数 Days_bs Number(3) 
消费 额度 Days ed Number(9) 
消费 笔 数 Month bs Number(3) 
消费 额度 Month ed Number(9) 
FE 消费 笔 数 Year bs Number(3) 
泊 费 额度 Year ed Number(9) 
(8) 客户 风险 信息 表 


客户 风险 信息 表 存 储 信用 卡 客户 有 风险 和 违约 客户 的 信息 ， 是 记录 客户 不 良 信息 的 表 ， 


便于 减少 银 trat 失 ， 提 高 风险 预警 


LA. hs; HH 
o AREH 


是 识别 、 


[v RU 


BIER ATE FR ZUR HESSE rm 


的 各 种 风险 ， 通 过 对 客户 的 资信 评估 ， 确 定 信用 等 级 、 分 析 透 文 情况 、 降 低 透 文风 险 等 ， 如 
表 10-8。 
表 10-8 风险 信息 表 (risk_info) 
字 段 名 英文 字段 名 类 H 备注 

账号 Card id Char(16) 

客户 号 Custer id char(8) 客户 标识 号 

卡号 Carder id Char(16) 

卡片 类 型 Card type char(1) 

姓名 Name Varchar2(10) 客户 姓名 

违约 类 型 Wy. type char(1) nos P ui e i s 

欠 款 额度 qk ed number(9) 

欠 款 原因 qk yx Varchar2(30) 

账单 zd date date 

最 后 还 款 Zhhk date date 

实际 还 款 Sjhk date date 

违约 天 数 wy. days Number(6) 
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(9) 客户 催收 信息 表 
能 收 系统 是 对 催收 的 账户 和 客户 资料 导入 到 这 个 所 


W 


谓 的 “催收 管理 系统 ”中 ， 然 后 由 俊 


收 主管 分 配 任务 ， 根 据 违约 性 质 ， 对 催收 行为 分 级 ， 一 般 催收 级 别 为 短信 催 、 电 话 催 、 人 工 
上 门 催 、 信 函 催 等 催收 方式 ， 能 记录 催收 员 的 催收 行为 和 催收 反馈 记录 。 通 过 客户 催收 信息 
表 记录 对 违约 客户 的 催收 的 情况 ， 如 表 10-9 所 示 。 


表 10-9 KERR collection info) 


* 段 名 英文 字段 名 类 型 备 dd 

催收 案件 编号 cs id char(10) 
账号 acount id Char(16) 
客户 姓名 name Varchar2(10) 
欠 球 额度 qk ed number(9) 
欠 款 原因 qk yx Varchar2(30) 
催收 级 别 cs level Char(1) a onu: ^ cu BE 
催收 到 账 额度 csdz ed Number(9,2) 
催收 日 期 cs date date 
是 否 停止 催收 Sftz_cs Char(1) N: 继续 催收 ，Y: 停止 催收 
亭 止 催收 日 期 Tzcs_date date 
催收 员 编号 Csy id Char(8) 
催收 员 姓 名 Cs name Varchar2(10) 
催收 天 数 Cs_days NUMBER(8) 

(400 客户 营销 信息 表 


客户 营销 信息 表 是 对 客户 刷卡 消费 进行 


口 


馈 的 一 种 方式 ， 对 


每 月 消费 额度 超过 一 定额 度 


或 每 月 消费 笔 数 大 于 某 个 值 给 予 优惠 或 送 积分 ， 如 表 10-10 所 示 。 
表 10-10 营销 信息 表 〈Marketing_info) 
字 BRA 英文 字段 名 类 型 备 注 
营销 编号 yx id charg) 
A; 节日 营销 刷卡 这 积分 ，B， 对 

客户 生日 的 当天 营销 购买 物品 优惠 ; 

营销 类 型 yx_type Char(]) C: 刷卡 每 月 额度 超过 2 000 元 ， 送 
积分 50047; D: 营销 发 起 期 间 刷 卡 
优惠 活动 

营销 分 行 号 yx_branchid Char(8) 

营销 地 点 Yx addr Varchar2(30) 

营销 员 姓 名 Yx Name Varchar2(10) 发 起 此 活动 的 负责 人 姓名 

营销 员 编 号 yxy id char(8) 

营销 合作 商户 yxhz sh Varchar(30) 

营销 产品 yx cp Varchar2(30) 

营销 内 部 评价 yx pi Varchar2(30) 


理解 以 客户 为 中 心 的 信用 卡 管理 系统 表 与 表 的 关系 ， 可 以 帮助 理解 数据 仓库 内 部 表 之 间 
关联 设计 星 形 模式 或 雪花 形 模式 的 设计 。 表 与 表 之 间 如 何 关联 ， 也 是 前 端 查询 时 需要 考虑 的 。 
合适 的 关联 方式 可 以 查询 出 用 户 需 要 的 查询 信息 ， 同 时 也 提高 了 前 端 应 用 的 效率 。 

3. ETL 数 据 装载 方式 

数据 仓库 的 核心 环节 是 ETL 过 程 , 这 是 数据 仓库 的 地 基 , 因此 ETL 提取 外 围 数据 到 目标 
数据 仓库 的 转化 规则 需要 合理 的 设计 ， 和 否则 影响 ETL 处 理 数据 的 效率 。 其 处 理 策略 如 下 : 

(1) 全 量 数据 装载 

数据 仓库 数据 表 中 只 包括 最 新 的 数据 ， 每 次 装载 前 先 删除 原 有 表 数 据 ， 然 后 完全 装载 最 
新 的 源 数 据 。 这 种 装载 模式 称 为 全 量 数据 装载 ， 数 据 抽取 程序 抽取 源 数 据 中 的 所 有 记录 ， 在 
装载 前 ， 将 数据 仓库 中 的 目标 数据 表 清 空 ， 然 后 装载 所 有 记录 。 为 提高 清空 目标 表 的 数据 速 
度 ， 一 般 采 用 truncate 清空 目标 数据 表 。 对 于 全 量 数据 一 般 数据 量 比较 大 ， 其 设计 ETL 处 理 
过 程 时 一 般 先 把 数据 装载 到 数据 仓库 的 临时 目标 表 中 ， 然 后 再 通过 数据 库 的 存储 过 程 merge 
到 目标 表 中 ， 这 样 减少 了 库 系 统 的 问题 ， 提 高 了 ETL 装载 效率 。 对 于 全 量 数据 ， 可 以 先 清空 
表 数 据 ， 然 后 再 装载 数据 到 目标 表 中 。 

(2) 增 量 数据 装载 

对 于 增 量 数据 装载 ， 根 据 实际 需求 ， 每 一 条 记录 是 一 个 新 的 事件 ， 相 互 之 间 没 有 必然 的 
联系 ， 新 记录 不 是 对 原 有 记录 数值 的 变更 ， 记 录 包 括 时 间 字 段 ， 可 以 通过 时 间 字 段 将 新 增 数 
据 抽 取出 来 装载 到 数据 仓库 目标 表 中 。 一 般 先 对 目标 表 根 据 当天 日 期 进行 一 次 删除 操作 ， 然 
后 再 追加 数据 到 目标 表 中 。 

G) 镜像 增 量 

数据 仓库 中 的 数据 具有 生效 日 期 字段 以 保存 数据 的 历史 数据 信息 ， 而 源 数据 不 保留 历史 
数据 并 且 每 天 都 可 能 更 新 。 因 此 ， 只 能 将 新 的 镜像 数据 与 上 次 装载 的 数据 的 镜像 进行 比较 ， 
找 出 变更 部 分 ， 更 新 历史 数据 被 更 新 记录 的 生效 终止 日 期 ， 并 添加 变更 后 的 数据 。 大 多 数据 
源 数据 中 需要 保存 历史 信息 的 维 表 。 

(4) 含 索 引 表 数据 装载 

实际 ETL 过 程 中 会 遇 到 有 索引 表 的 数据 装载 ， 一 般 选 择 LOAD 方式 。 

4. 数据 抽取 、 清 洗 、 转 换 、 装 载 到 目标 数据 库 

数据 仓库 ETL 处 理 过 程 是 整个 数据 仓库 中 最 重要 的 环节 。 对 于 外 围 数 据 的 装载 一 般 先 把 
数据 装载 到 目标 数据 仓库 的 临时 表 ， 而 不 是 直接 装载 到 目标 表 中 ， 因 为 目标 表 很 多 都 带 有 索 
引 ， 如 果 直 接 装 载 到 目标 表 中 ， 索 引 会 大 大 影响 数据 装载 的 效率 。 

本 案例 ETL 过 程 的 实现 以 SAS 工具 和 DataStage 工具 分 别 装载 实现 同样 的 功能 ， 目 的 是 
让 读者 学 习 SAS 工具 。 

本 案例 SAS 工具 的 应 用 可 以 选择 UNIX 环境 ， 也 可 以 选择 Windows 环境 ， 为 便于 学 习 ， 
SAS 工具 选择 Windows 下 的 环境 , 数据 仓库 应 用 ORACLE10G, 登录 数据 库 的 用 户 名 : chiran， 
密码 : chiran， 数 据 仓库 实例 : ORCL. 

(1) 客户 信息 表 cust info 装载 操作 步骤 

1) 首先 登录 数据 仓库 ORCL， 创 建 cust_info 表 ， 其 创建 表 语 句 如 下 : 


E 


id) 


-- Create table 
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create table CUST INFO 


( 
CUSTER ID CHAR($), 
CARD ID CHAR(16), 
NAME VARCHAR?(10), 
SEX CHAR(1), 
ID VARCHAR?(18), 
BIRTH DATE, 
MARITAL STATUS CHAR(1), 
XL VARCHAR2(10), 
ZW VARCHAR2(12), 
WORK. YEAR NUMBER(), 
ADDR 1 VARCHAR2(30), 
ADDR 2 VARCHAR2(30), 
ZONE VARCHAR?2(10), 
MOBILE CHAR(11), 
PHONE VARCHAR?(12), 
E MAIL VARCHAR2(30), 
GJ VARCHAR2(10), 
SQ DATE DATE, 
STATUS CHAR(1), 


CUST LEVEL CHAR(1), 
CREDET STATU NUMBER(I), 


ZD DATE DATE, 
ZDYJ ADDR VARCHAR2(30), 
ZDYJ FS CHAR(1) 


) 
tablespace TBS CUSTI; 
【注意 】 创建 表 语 句 中 要 把 tablespace 对 应 表 空 间 TBS. CUSTI 换 成 读者 自己 的 数据 仓 
库 对 应 的 表 空 间 。 
2) 外 部 数据 文件 Cust.dat 装载 到 目标 表 cust. info 的 SAS 程序 如 下 : 


LIBNAME  qhlj oracle user-chiran password-chiran path=orcl; 
PHEESEXE BEBUIRS PE TX A8 Hen] 
LIBNAME qh 'di\gh'; /* E XOE TR e */ 
%let lj» DAqh cust;/* XE X P 3E SC ER e */ 
%let gsm-.dat; /* 文 件 格式 定义 */ 
%let filename- "&lj&gsm"; 


DATA  qh.custinf (drop-birth 1sq date 1 zd date 1); /* 数 据 集 存储 到 指定 逻辑 库 */ 
Infile &filename  dim-' dsd  missover lrecl=269; 
诬 此 处 用 dim= 分 隔 符 参 数 读 取 分 隔 文件 ， 文 件 记录 长 度 超过 256 用 lrec 三 指定 长 度 */ 
input custer id :$8. 
card id :$16. 
name :$10. 
sex :$1. 
id :$18. 


262 


birth 1 :$8. 
marital status :$1. 


xl :$10. 
ZW :$12. 
work year 2; 
addr 1 :$30. 
addr_2 :$30. 
zone :$10. 
mobile :$12. 
phone :$12. 
e mail :$30. 
gj :$10. 
sq date 1 :$8. 
status :$1. 
cust level :$1. 


credet statu :1. 
zd date 1 :$8. 
zdyj addr :$30. 
zdyj fs :$1. 


E 


length birth 8; 


proc 


if birth 1«'19771231' then birth-input('19771231',anydtdte8.); 
else do; 
if birth 1»'21001231' then birth-input(21001231',anydtdte8.); 
else birth -input(birth 1,anydtdte8.); 
end; 
length sq date 8; 
if sq date 1«'19771231' then sq date-input(' 1977123 l',anydtdte8.); 
else do; 
if sq date 1»'21001231' then sq date-input(21001231',anydtdte8.); 
else sq date -input(sq date l,anydtdte8.); 
end; 
length zd date 8; 
if zd date 1«'19771231' then zd date-input(1977123l',anydtdte8.); 
else do; 
if zd date 1» '21001231' then zd date-input(21001231',anydtdte8.); 
else zd date -input(zd date l,anydtdte8.); 
end; 


append  base-qghlj.cust info 
( bulkload-no 


dbsastype-( 

birth = 'date' 

work year —'numeric' 
sq date = 'date' 

zd date = 'date' 
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credet statu —numeric' 


) 
nullchar-no 


nullcharval-" " 


) 
data-qh.custinf; 


run; 


3) 登录 数据 仓库 ， 执 行 查询 语句 select * from cust info， 查 询 信 息 表 cust info， 信 息 显 
示 部 分 截图 如 图 10-2 所 示 。 


H- ® | A ^|à- - 4 u 


CUSTER ID | CARD ID . NAME  |SEX MARITAL STATUS 


10000001 1234567892345671 3&738H M 101000000000000001 1982-3-23 * Y 


10000007 1234567892345677 £P M 101000000000000007 1982-3-29 = Y 
10000008 1234567892345678 RE M 101000000000000008 1382-331 * Y 


10-2 cust info 表 信 息 显 示 


(2) 账户 信息 表 account. info 装载 操作 步骤 
D 登录 数据 仓库 ORCL， 创 建 account info 表 ， 其 创建 表 语 句 如 下 : 


-- Create table 

create table ACCOUNT INFO 

( 
CUSTER ID CHAR(8), 
ACCOUNT ID CHAR(16), 
CARD ID CHAR(16), 
CARD TYPE CHAR(10), 
NAME VARCHAR?2(10), 
ZD DATE DATE, 
BRANCH ID  CHAR(9), 
OPEN DATE DATE, 
ZH STATUS NUMBER, 
STATUS CHAR(1), 
CARD LEVEL CHAR(1), 
HY FLAG CHAR(1), 
EV ED NUMBER(9), 
KX DAYS NUMBER(4) 

) 

tablespace TBS CUST2; 


2) 外 部 数据 文件 account.dat 装载 到 目标 表 account. info 的 SAS 程序 如 下 : 


LIBNAME  qhlj oracle user-chiran password-chiran path=orcl; 
Pei re Bela PE tt RH 

LIBNAME qh 'dAqh'; /* 定 义 逻 辑 库 */ 

%let 1j= Di:\qh\account; 访 定义 外 部 文件 路 径 */ 

%let gsm=.dat; /* 文 件 格 式 定义 */ 
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%let 


filename= "&lj&gsm"; 


DATA qh.account (drop=zd date 1 open date 1); /* Aji RETT MEPE E E 


/* yb A) 


Infile  &filename | dim-' dsd  missover lrecl-102 ; 


Input custer id :$8. 


account id — :$16. 


card id :$16. 
card type :$10. 
name :$10. 


zd date 1 :$8. 
branch id :$9. 
open date 1 :$8. 


zh status :1. 
status :$1. 
card level :$1. 
hy_flag :$1. 
ev ed :9. 


kx days i4. 


E 


length zd date 8; 


proc 


if zd date 1«'19771231' then zd date-input( 1977123 l',anydtdte8.); 
else do; 
if zd date 1> '21001231' then zd date-input(21001231',anydtdte8.); 
else zd date -input(zd date 1,anydtdte8.); 
end; 
length open date 8; 
if open date 1«'19771231' then open date-input('19771231',anydtdte8.); 
else do; 
if open date 1-'21001231' then open date-input( 2100123 1';anydtdte8.); 
else open date -input(open date l,anydtdte8.); 
end; 


append base-qghlj.account info 
( bulkload-no 


dbsastype-( 

zd date = 'date' 

open date = 'date' 
zh status = numeric' 
ev ed = 'numeric' 


kx days -'numeric' 
) 
nullchar-no 


"n 


nullcharval- 


) 
data-qh.account; 


run; 


dm= 分 隔 符 参 数 读 取 分 隅 文件， 文件 记录 长 度 超过 256 用 lrecl= 指 定 长 度 */ 
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3) 登录 数据 仓库 ， 执 行 查询 语句 select * from account info， 查 询 信 息 表 cust info， 信 息 
显示 部 分 截图 如 图 10-3 所 示 。 


H-. 8 | A d 48 ug Gi - 
CUSTER_ID [ACCOUNT ID H CARD TYPE [NAME [|ZD DATE |BRANCH ID 
10000001 2234567892345676 1234567892345671 银联 1&248H 2008-6-8 ~ 123456789 


10000007 8234567892345673 1234567892345677 MASTER P 2008-4-8 = 234567818 
10000008 9234567892345675 1234567892345678 VISA RE 2008-4-3 = 312456786 


图 10-3 account info 表 信 息 显 示 


(D 卡 信息 表 card info 装载 操作 步骤 
D 登录 数据 仓库 ORCL， 创 建 card info 表 ， 其 创 


mt 
Tur 
n 


语句 如 下 : 


-- Create table 

create table CARD INFO 

( 
CARD ID CHAR(16), 
CUSTER ID | CHAR(8), 
CARDER ID . CHAR(16), 
CARD TYPE | CHAR(10), 
NAME VARCHAR?2(10), 
MASTER TYPE CHAR(1), 
BRANCH ID | CHAR(9), 


ED NUMBER(9), 
LS ED NUMBER(9), 
TZ DATE DATE, 

QX ED NUMBER(9), 
FQ ED NUMBER(9), 


SQHK ED NUMBER(9), 
SOHK DATE DATE, 
BQHK ED NUMBER(9), 
BQHK DATE DATE, 
QK ED NUMBER(9), 
OK TYPE CHAR(1), 
WY DAYS NUMBER(3), 
WY TIMES NUMBER(2), 
WY FLAG CHAR(1) 

) 

tablespace TBS CUST3; 


2) 外 部 数据 文件 card.dat 装载 到 目标 表 card. info 的 SAS 程序 如 下 : 


LIBNAME  qhlj oracle user-chiran password-chiran path=orcl; 
IRE EYE POBRE EXP AR en] 

LIBNAME qh'd:\qh'; /* 定 义 逻 辑 库 */ 

%let lj= DAqhNard;/*xE XJ SOC TERR TE */ 

%let gsm-.dat; /* 文 件 格式 定义 */ 
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%let 


DATA qh.cardinfo (drop=tz date 1 sqhk date 1 bqhk date 1); /*%ti 


入 此 处 用 dim- T2) RAROERA MARKEE 256 用 lrecl= 指 定 长 度 */ 


input 


filename= "&lj&gsm"; 


IT 
nb 


Infile  &filename dm='| dsd missover lrecl=164; 


card id :$16. 
custer id :$8. 
carder id :$16. 
card type :$10. 
name :$10. 
master type :$1. 
branch id :$9. 


ed :9. 
ls ed :9. 
tz date 1 :$8. 
qx ed :9. 
fq ed :9. 
sqhk ed :9. 
sqhk date 1 :$8. 
bqhk ed 3 
bqhk date 1 :$8. 
qk ed :9. 
qk type :$1. 
Wy_days ; 

wy times :2. 
wy. flag :$1. 


length tz date 8; 


run; 
proc 


if tz date 1«'19771231' then tz date-input(19771231';anydtdte8.); 
else do; 
if tz date 1» 21001231' then tz date-input(2100123l1';anydtdte8.); 
else — tz date -input(tz date l,anydtdte8.); 
end; 
length sqhk date 8; 
if  sqhk date 1«'19771231' then sqhk date-input(19771231';anydtdte8.); 
else do; 
if sqhk date 1» '21001231' then sqhk date-input(21001231';anydtdte8.); 
else sqhk date-input(sqhk date l,anydtdte8.); 
end; 
length bqhk date 8; 
if  bqhk date 1«'19771231' then bqhk date-input(19771231',anydtdte8.); 
else do; 
if bqhk date 1-'21001231' then bqhk date-input(21001231',anydtdte8.); 
else — bqhk date-input(bqhk date 1,anydtdte8.); 
end; 


append  base-qhlj.card info 


ETE SIE EXER 
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( bulkload-no 


dbsastype-( 

ed —'numeric' 

ls ed —'numeric' 
tz date = 'date' 

qx ed —'numeric' 
fq ed —'numeric' 
sqhk ed —'numeric' 


sqhk date = 'date' 
bqhk ed — -'numeric' 
bqhk date = 'date' 
qk ed = 'numeric' 
wy_days ='numeric' 
wy_times —numeric' 

) 

nullchar-no 

nullcharval-" " 

) 

data-qh.cardinfo; 


run; 


3) 登录 数据 仓库 ， 执 行 查询 语句 select * from card info, AWA AK card info， 信 息 显 
示 部 分 截图 如 图 10-4 所 示 。 


E-e | A |à emu- 
| CUSTER_ID CARD TYPE [| NAME w BRANCH ID [ED 
> 1/22345678892345676 10000001 1234567892345671 银联 3&8 123456783 7000 


| 2| 8234567892345673 10000007 1234567892345677 MASTER 王 中 234567818 5000 
| 3| 9234567892345675 10000008 1234567892345678 VISA REF 312456786 8000 


10-4 card info 表 信息 显示 


(4) 交易 信息 表 Transaction inf 装载 操作 步骤 
D 登录 数据 仓库 ORCL， 创 建 transaction inf 表 ， 其 创建 表 语 句 如 下 : 


-- Create table 
create table TRANSACTION INF 
( 
CARD ID CHAR(16), 
CUSTER ID |. CHAR($), 


CAR ID CHAR(16), 
CARD TYPE — CHAR(10), 
NAME VARCHAR?2(10), 
XF ED NUMBER(9), 

XF SH VARCHAR2(30), 


XF ADDR — VARCHAR2(30), 
XF DATE DATE, 

XF TYPE CHAR(1), 

BQXF LJBS | NUMBER(4), 
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XF SXF NUMBER(9), 


XF LX NUMBER(9,3), 
XF DQLV NUMBER(5,3), 
XF JF NUMBER(9), 
HK ED NUMBER(9), 
CARD STATUS CHAR(1) 


) 
tablespace TBS CUSTI; 


2) 外 部 数据 文件 transaction.dat 装载 到 目标 表 transaction inf 的 SAS 程序 如 下 : 


LIBNAME  qhlj oracle user-chiran password-chiran path=orcl; 
PEERAGE FE RUE AR Fn] 

LIBNAME qgh'dAqh'; /*5E X37 SR E / 

%let lj= DAqhWransaction;/* XE X P OCT PR £6 */ 

%let gsm-.dat; /* 文 件 格式 定义 */ 

%let filename- "&lj&gsm"; 

DATA qh.transaction (drop-xf date 1); /# 数 据 集 存储 到 指定 逻辑 库 头 


Infile  &filename dlm='|' dsd missover lrecl-184 ; 

input — Card id :$16. 

Custer id :$8. 

Car id :$16. 

Card type :$10. 

Name :$10. 

Xf ed :9. 

Xf sh :$30. 

Xf addr :$30. 

xf date 1 :$8. 

xf type :$1. 

bqXf ljbs :4. 

Xf sxf :9. 

xf Ix :9.3 

xf dqlv :5.3 

xf jf 9; 

hk ed :9. 

card status :$1. 


length xf date 8; 

if xf date 1«'19771231' then xf date=input('1977123 1',anydtdte8.); 

else do; 
if xf date_1>'21001231' then xf date=input('™21001231',anydtdte8.); 
else xf date —-input(xf date l,anydtdte8.); 

end; 
run; 
proc append  base-qhlj.transaction inf 

( bulkload-no 
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dbsastype-( 


Xf ed —'numeric' 
xf date = 'date' 
bqXf ljbs —'numeric' 
xf Ix —'numeric' 
xf dqlv —'numeric' 
xf jf —numeric' 
hk ed —'numeric' 

) 

nullchar-no 

nullcharval-" " 

) 


data-qh.transaction; 


run; 


30 登录 数据 仓库 , 执行 查询 语句 select * from transaction inf, 查询 信息 表 transaction inf, 
1 


交易 表 显 示 部 分 交易 信息 截图 如 图 10-5 所 示 。 


ES S uH Gi- 


BQXF LIBS 


蕉 为 明 400 北京 华 联 商 场 ~ = 20011323 ~ 1 30 
£e 3000 青岛 大 瑞 发 = 2011245 国 | 
REH 1500 法 国家 乐 福 = = 2011-310 = 2 


图 10-5 ”交易 信息 表 数 据 显示 


(65) 客户 消费 行为 信息 表 Consumer. behavior 装载 操作 步骤 
D 登录 数据 仓库 ORCL， 创 建 Consumer behavior 表 ， 其 创建 表 语 句 如 下 : 


-- Create table 
create table CONSUMER BEHAVIOR 
( 
CARD ID CHAR(16), 
CUSTER ID CHAR(8), 


C ID CHAR(16), 
CARD TYPE CHAR(10), 
NAME VARCHAR?(10), 


XF ED — NUMBER(9), 
XF SH — VARCHAR2(30), 
XF ADDR — VARCHAR2(30), 
XF DATE DATE, 

XF TYPE  CHAR(1), 

XF BS NUMBER(4), 
DAYS BS NUMBERG), 
DAYS ED | NUMBER(9), 
MONTH BS NUMBER(), 
MONTH ED NUMBER(9), 
YEAR BS NUMBERG), 
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YEAR ED | NUMBER(9) 


) 
tablespace TBS CUST2; 


2) 外 部 数据 文件 consumer.dat 装载 到 目 


LIBNAME  qhlj 
IRE EYE BOB E XP AR en] 
LIBNAME qh 'd:\qh'; /*5E E48 E */ 


标 表 Consumer behavior 的 SAS 程序 如 下 : 


%let lj D:\qh\consumer;/* E X. / Sl XC T ERTE/ 


%let gsm=.dat; /* 文 件 格 式 定义 */ 
%let filename- "&lj&gsm"; 


oracle user-chiran password-chiran  path-orcl; 


PROS SEES 


SIR EXER JENA 


DATA qh.consumer 


(drop-xf date 1); 


Infile  &filename  dlm-' 


dsd  missover 


Irecl-178 ; 


AH dim= 分 隔 符 参数 读 取 分 隔 文件 ， 文 件 记录 长 度 超过 256 

input — card id :$16. 
custer id :$8. 
c id :$16. 
card type :$10. 
name :$10. 
xf ed :9. 
xf sh :$30. 
xf addr :$30. 
xf date 1 :$8. 
xf type :$1. 
xf bs i4. 
days bs :3. 
days ed :9. 
month bs 3. 
month ed :9. 
year bs :3. 
year ed :9. 


length xf date 8; 
if xf date 1«'19771231' 
else do; 
if xf date 1— '21001231' 

else xf date -input(xf date l,anydtdte8.); 

end; 

run; 

proc append base=qhlj.consumer behavior 
( bulkload-no 


dbsastype-( 

xf ed —numeric' 
xf date = 'date' 

xf bs —numeric' 
days bs —'numeric' 


用 lrecl= 指 定 长 度 */ 


then xf date=input('19771231',anydtdte®.); 


then xf date-input(21001231',anydtdte8.); 
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days ed —'numeric' 


month bs -—'numeric' 
month ed —'numeric' 
year bs = 'numeric' 


year ed ='numeric' 


) 
nullchar-no 


"n 


nullcharval- 


) 
data-qh.consumer; 


run; 


30 登录 数据 仓库 ,执行 查询 语句 select * from consumer behavior, AWA EK consumer - 
behavior， 消 费 行为 表 显 示 部 分 消费 信息 截图 如 图 1076 所 示 。 


| A d |< 0| 5 TE 
XF 5H XF ADDR jc] XF_TYPE 
北京 华 联 商场 写 北京 = 2011-3-23 = 1 
青岛 大 瑞 点 o 青岛 =| 2011-2-15 | 1 
i A -E = 2011-3410 = 2 


DS 
S 
ON 
d 
5i 
za 
or 
ru 
Ex 
mi 
[S 

E 


C6) 催收 信息 表 collection info 装载 操作 步骤 
D 登录 数据 仓库 ORCL， 创 建 collection info 表 ， 其 创建 表 语句 如 下 : 


-- Create table 
create table COLLECTION INFO 
( 
ACCOUNT ID CHAR(16), 
CS ID CHAR(10), 
ACOUNT ID | CHAR(16), 
NAME VARCHAR?2(10), 
WY TYPE CHAR(1), 
QK ED NUMBER(9), 
OK YX VARCHAR2(30), 


CS LEVEL | CHAR(1), 
CSDZ ED NUMBER(9), 

CS DATE DATE, 

SFTZ CS — CHAR(D) 

TZCS DATE DATE, 

CSY ID CHAR(8), 

CS NAME VARCHAR2(10), 
CS DAYS | NUMBER(8) 


) 
tablespace TBS CUST3; 


2) 外 部 数据 文件 collection.dat 28:8 H E collection info 的 SAS 程序 如 下 : 
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LIBNAME  qhlj oracle user-chiran password-chiran path=orcl; 
PEE RAE FE RUE AR Fen] 

LIBNAME qh 'dAqh'*/*iE X27 $REE*/ 

%let 1j= D:\qh\collection;/* 定 义 外 部 文件 路 径 */ 

%let ”gsm=.dat; /* 文 件 格 式 定义 */ 

%let filename- "&lj&gsm"; 

DATA  qh.collection (drop-cs date ltzcs date 1);。/* 数 据 集 存储 到 指定 逻辑 库 */ 


Infile &filename  dim-' dsd missover lrecl=145; 
input — account id :$16. 
cs id :$10. 
acount id :$16. 
name :$10. 
wy. type :$1. 
qk ed :9. 
qk yx :$30. 
cs_level :$1. 
csdz ed :9; 
cs date 1 :$8. 
sftz cs :$1. 
tzcs date 1 :$8. 
csy_id :$8. 
cs name :$10. 
cs days :8. 


length cs date 8; 
if cs date 1-'19771231' then cs date-input('1977123l';anydtdte8.); 


else do; 
if cs date 17 '21001231' then cs date-input(21001231',anydtdte8.); 
else cs date-input(cs date l,anydtdte8.); 


end; 


length tzcs date 8; 
if tzcs date 1«'19771231' then tzcs date-input(19771231',anydtdte8.); 
else do; 
if tzcs date 1» '21001231' then tzcs date-input(21001231';anydtdte8.); 
else — tzcs date —-input(tzcs date l,anydtdte8.); 
end; 
run; 
proc append  base-qhlj.collection info 
( bulkload-no 


dbsastype-( 

qk ed —'numeric' 
csdz ed —'numeric' 
cs date — 'date' 

tzcs date — —'date' 
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cs days —'numeric' 


) 


nullchar-no 


nullcharval-" " 


) 


data-qh.collection; 
run; 
) 登录 数据 仓库 , 执行 查询 语句 select * from collection info, 查询 信息 表 collection info, 
i uod EROR 图 如 图 10-7 所 示 。 


EFFECTE 
| ACCOUNT ID ACOUNT. ID | NAME 
1 | 1234567892345673 1010000011 6234567892345673 高 为 花 1000 志 记 还 款 zz 


| 2| 5234567892345676 1010000012 8234567892345676 刘 小 红 2000 没有 钱 = 
3| 8234567892345671 1010000013 9234567892345672 33 k8ll 10800 FERA = 


图 10-7 fc US os 


n 客户 积分 信息 表 cust Integral 装载 操作 步骤 
) 登录 数据 仓库 ORCL， 创 建 cust Integral 表 ， 其 创建 表 语 句 如 下 : 


-- Create table 
Create table CUST INTEGRAL 
( 
CARD ID CHAR(16), 
CUSTER ID CHAR($), 
CA ID CHAR(16), 
NAME VARCHAR2(10), 
BZ TYPE | CHAR(1), 
XF ED NUMBER(9), 
JF TYPE . CHAR(1), 
JF NUMBER(9), 
JFJS RULE NUMBER(1), 
BQDH JF | NUMBER(9), 
BQ JF NUMBER(9), 
DH LX CHAR(1), 
BQJL JF | NUMBER(9), 
BQJL YX |. VARCHAR2(30) 


) 
tablespace TBS CUSTI; 


2) 外 部 数据 文件 integral.dat 装载 到 目标 表 cust. Integral 的 SAS 程序 如 下 : 


LIBNAME  qhlj oracle user-chiran password-chiran  path-orcl; 
IRE EYE POBRE XP AR Fen] 

LIBNAME qgh'dAqh'; /*5& 3E RE / 

%let lj- DAqhNntegral/*zE X. / Sl SC fT ER TE 

%let gsm-.dat; /* 文 件 格 式 定义 */ 
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%let filename- "&lj&gsm"; 
DATA qhintegral; /数据 集 存储 到 指定 逻辑 库 %/ 


Infile  &filename dlm='|' dsd  missover lrecl-129 ; 

input card id :$16. 

custer id :$8. 

ca id :$16. 

name :$10. 

bz type :$1. 

xf ed :9. 

jf type :$1. 

jf 39. 

jfjs rule :1. 

bqdh jf :9. 

bq jf :9; 

dh Ix :$1. 

bqjl jf 39. 

bqjl yx :$30. 


run; 
proc append base=qhlj.cust_integral 
(bulkload=no 
dbsastype=( 
xf ed ='numeric' 
jf ='numeric' 
jfjs rule —numeric' 
bqdh jf —numeric' 
bq jf —numeric' 
bqjl jf —numeric' 
) 


nullchar-no 


nullcharval- 


) 
data-qh.integral; 


run; 


3) 登录 数据 仓库 ， 执 行 查 询 语句 select * from cust Integral， 查 询 信息 表 cust Integral; 
客户 积分 表 显 示 部 分 积分 信息 截图 如 图 10-8 所 示 。 


图 10-8 客户 积分 表 数 据 显示 


(8) 信用 卡 申请 信息 表 Apply_credit 装载 操作 步骤 
1) 登录 数据 仓库 ORCL， 创 建 Apply_credit 表 ， 其 创建 表 语 句 如 下 : 
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Create table apply credit 
( 

aplication bh — char(8), 
application dte date, 


apl name varchar2(10), 
birth. dte date, 

sex char(1), 

zj type char(1), 

zj id varchar2(18), 
education varchar2(10), 
marr status char(1), 

mobile char(11), 

xz addr varchar2(30), 
phone varchar2(12), 
work dw varchar2(30), 
Xz work y integer, 

zc varchar2(16), 
year earn number(9), 

gz year number(2), 

sq ed number(9), 
father varchar2(10), 
mother varchar2(10), 
fm phone varchar2(12), 
ZX char(1), 

sp bh char(8), 

sp name varchar2(8), 
pf value integer, 

pf jg char(1), 

jy. ed number(9) 


) 


tablespace  tbs cust2; 


2) 外 部 数据 文件 apply.dat 装载 到 目标 表 apply. credit 的 SAS 程序 如 下 : 
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LIBNAME  qhlj oracle user-chiran password-chiran  path-orcl; 


人 # 建 立 连 接 数据 库 的 逻辑 库 %/ 
LIBNAME qh 'di\qh'; /* 定 义 逻 辑 库 */ 


%let lj- D:\qh\apply;* 定 义 外 部 文件 路 径 */ 


yet gsm=.dat; /* 文 件 格式 定义 */ 
%let filename- "&lj&gsm"; 


DATA  qh.apply (drop-application dte 1 birth dte 1); 


Infile &filename  dlm-'| dsd  missover 
input aplication bh :$8. 
application dte 1 :$8. 
apl name :$10. 
birth dte 1 :$8. 
sex :$1. 


/#* 数 据 


RTTE SIE EXE AREE / 


proc 


zj type :$1. 


zj id :$18. 
education :$10. 
marr status :$1. 
mobile :$12. 
XZ_addr :$30. 
phone :$12. 
work_dw :$30. 
Xz work y 2. 
zc :$16. 
year earn :9. 

gz year :2. 

sq ed :9. 
father :$10. 
mother :$10. 
fm phone :$12. 
ZX :$1. 
sp_bh :$8. 
sp_name :$8. 
pf value :3. 

pf jg :$1. 
jy. ed :9. 


length application dte 8; 
if application dte 1«'19771231' then application dte=input(19771231',anydtdte®.); 
else do; 
if application dte 1> '21001231' then application dte-input('2100123 l';anydtdte8.); 
else application dte —input(application dte 1,anydtdte8.); 
end; 
length birth dte 8; 
if birth dte 1«'19771231' then birth dte-input(19771231';anydtdte8.); 
else do; 
if birth dte 17 '21001231' then birth dte-input(21001231';anydtdte8.); 
else birth dte —input(birth dte l,anydtdte8.); 
end; 


append base-qhlj.apply credit 
( bulkload-no 


dbsastype-( 

application dte — 'date' 

birth dte = 'date' 

XZz work y —numeric' 
year earn —numeric' 
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gz year 
sq ed 
pf value 
jy. ed 

) 


nullchar-no 


" 


nullcharval- 


) 
data-qh.apply 
run; 


—'numeric' 
—'"numeric' 
—'numeric' 


—'numeric' 


" 


, 


3) 登录 数据 仓库 ， 
户 申请 表 显 示 部 分 信息 截 


\ 行 查询 语句 select * from apply_credit， 查 询 信 息 表 apply_credit， 客 
图 如 图 10-9 所 示 。 


Ee | 


APLICATION BH — |APPLI 
> 


dà 
ICATION, DTE 


E 


| APL NÀME 


EJ 


BIRTH DTE 


5 -~ 


zJ ID EDUCATION — | MMRR. STATUS 


12300101 20114 
12300102 20114 
12300103 20114 


93 
8-10 
8-7 


- 刘 新 峰 
- Bu 
7 EES 


KI 


10-9 客户 


1981-6-23 = m 
18831121 * m 
1978-3-16 = f 


88991236 本 科 
101025198311215816 研究 生 
380029197803163128 博士 


1 请 信 息 表 数据 显示 


(9) 风险 信息 表 risk info 装载 操作 步骤 


D 登录 数据 仓库 ORCL, 


-- Create table 


create table RISK INFO 


( 
CARD ID 


CHAR(16), 


CUSTER ID CHAR(8), 

CARDER ID CHAR(16), 
CARD TYPE CHAR(10), 
VARCHAR?(10), 


NAME 
WY TYPE 
QK ED 
QK YX 
ZD DATE 


CHAR(1), 
NUMBER(9), 


& risk info 表 ， 其 创建 表 语 句 如 下 : 


VARCHAR2(30), 


DATE, 


ZHHK DATE DATE, 
SJHK DATE DATE, 
NUMBER(3) 


WY DAYS 
) 


tablespace TBS CUST3; 


2) 外 部 数据 文人 


LIBNAME 


qhlj 


据 库 的 逻辑 库 */ 


F risk.dat 装载 到 目标 表 risk_info 的 SAS 程序 如 下 : 


oracle user=chiran password=chiran path=orcl; 


LIBNAME qh'd:\gh'; 访 定 义 逻 辑 库 */ 
%let lj D:\qh\risk;/* 定 义 外 部 文件 路 径 */ 


%let gsm=.dat; /* X4 
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F 格 式 定义 */ 


%let filename- "&lj&gsm"; 


DATA qh.risk (drop=zd date 1 zhhk date 1 sjhk date 1); /数据 集 存 储 到 指定 逻辑 库 闷 
Infile  &filename  dim-' dsd missover; 
入 此 处 用 dm=' 分隔 符 参 数 读 取 分 隔 文件 ， 文 件 记录 长 度 超过 256 用 Irecl-Tü E IK BE 
input — card id :$16. 
custer id :$8. 
carder id :$16. 
card type :$10. 
name :$10. 
wy type :$1. 
qk ed :9. 
qk yx :$30. 
zd date 1 :$8. 
zhhk date 1 :$8. 
sjhk date 1 :$8. 
wy. days 13; 


length zd date 8; 
if zd date 1-«19771231' then zd date-input( 1977123 l',anydtdte8.); 
else do; 
ifzd date 17 '21001231' then zd date-input(21001231';anydtdte8.); 
else zd date -input(zd date l,anydtdte8.); 
end; 
length zhhk date 8; 
if zhhk date 1«'19771231' then zhhk date-input(19771231';anydtdte8.); 
else do; 
if zhhk date 1» '21001231' then zhhk date-input('21001231';anydtdte8.); 
else zhhk date -input(zhhk date l,anydtdte8.); 
end; 
length sjhk date 8; 
if  sjhk date 1-19771231' then sjhk date-input('19771231',anydtdte8.); 
else do; 
if sjhk date 1^ '21001231' then sjhk date-input(2100123 1';anydtdte8.); 
else sjhk date -input(sjhk date l,anydtdte8.); 
end; 


proc append  base-qhlj.risk info 
( bulkload-no 


dbsastype-( 

qk ed —numeric' 
zd date = 'date' 

zhhk date = 'date' 

sjhk date = 'date' 
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3) 登录 数据 仓库 ， 执 行 查询 语句 select * fromrisk info， 查 询 风 险 表 risk_info， 风 险 信息 
表 显 示 部 分 数据 截图 如 


wy days -'numeric' 
) 
nullchar-no 
nullcharval-" " 
) 
data-qh.risk; 


run; 


DS 


10-10 所 示 。 


E 


eu- 


| CARDER ID CARD TYPE |NAME  |wY TYPE üK Yx ZD DATE  |ZHHK DATE 


1234567892341669 1 [ 1: A wE = 2011-38 = 2011-4-26 


1234567892341665 2 马 东 风 C FARA 2011-512 国 | 2011-7-12 
1234567832341663 0 古 天 月 B 没有 钱 = 2011-5-9 = 2011-6-18 


10-10 ”风险 信息 表 数 据 显示 


(10) 营销 信息 表 Marketing info 装载 操作 步骤 
D 登录 数据 仓库 ORCL， 创 建 Marketing info 表 ， 其 创建 表 语 句 如 下 : 


2) 外 部 数据 文件 apply.dat 装载 到 目标 表 Marketing info 的 SAS 程序 如 下 : 
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-- Create table 
create table MARKETING INFO 
( 

YX ID CHAR($), 


YX TYPE CHAR(1), 

YX BRANCHID CHAR(8), 

YX ADDR X VARCHAR2(30), 
YX NAME | VARCHAR2(10), 


YXY ID CHAR(8), 
YXHZ SH . VARCHAR2(30), 
YX CP VARCHAR2(30), 
YX PJ VARCHAR2(30) 


) 
tablespace TBS_CUST3; 


LIBNAME  qhlj oracle user-chiran password=chiran path=orcl; 
EVERA E EE, 

LIBNAME qgh'dAqh'; /* E X37 JE */ 

%let lj» D:\qhimarket;* 定 义 外 部 文件 路 径 */ 

%let gsm-.dat; /* 文 件 格式 定义 */ 

%let filename- "&lj&gsm"; 

DATA qh.market; /# 数 据 集 存储 到 指定 逻辑 库 关 


Infile  &filename dim=| dsd missover; 


入 此 处 用 dm=' 分 隔 符 参数 读 取 分 隔 文件 ， 文 件 记录 长 度 超过 256 用 lrecl= 指 定 长 度 */ 


input yx id :$8. 


run; 


yx type 


yx addr 
yx name 
yxy id 
yxhz sh 
yx cp 

yx pj 


:$1. 
yx branchid :$8. 
:$30. 
:$10. 
:$8. 
:$30. 
:$30. 
:$30. 


proc append base=qhlj.marketing info 


( bulkload-no 
nullchar-no 
nullcharval-" " 
) 


data-qh.market; 


run; 


3) 登录 数据 仓库 ， 执 行 查询 语句 select * from Marketing info, frisz 


ting_info， 营 销 信 息 表 显示 部 分 数据 截 


Z] 


如 


图 10-11 所 示 。 


言 息 表 Marke- 


EE 
YX, 


E | 
ID 


dà 


YX_BRANCHID 


E 


LE 


YX ADDR — |YX NAME 


e 好- 
_ [YXY.ID 


[VHZ SH |YX cP 


YX PJ 
= RA KR, bE EN 


» 


D — [YX TYPE 
1|12010017 A 
212010016 C 


|3|12010013 D 


10101235 
10101258 
10101268 


北京 分 行 
天 津 分 行 
山东 分 行 = 


DETJE 
EIE] 
高 庆 美 


10101001 大 中 电器 - 
10221003 苏宁 电器 - 
10531237 ” 华 联 


图 10-11 


10.8 ”数据 挖掘 信贷 风险 案例 


数据 挖掘 案 


SAS/EM T 


(1) 数据 


挖掘 业务 定位 


数据 挖掘 
业务 需求 是 进 
定位 也 各 有 不 


是 为 
行 数据 挖 和 
同 。 


营销 信息 表 数 据 显示 


坚决 某 个 业务 


ab E 
HIR 


信贷 风险 案例 分 析 : 业务 背景 


随 着 我 国 


一 种 委托 人 和 


p: 


经 济 的 发 展 ， 我 
信用 风险 管理 的 一 个 突出 问题 , 在 信贷 过 程 中 
代理 人 的 关系 , 两 者 之 间 存 在 信息 不 对 称 。 


经 营 
尚 
fü 


KA, PKT 
未 建立 起 一 
款 者 的 财产 和 还 


下 的 问题 ， 
加 的 第 一 步 。 现 实 世 界 中 的 业务 分 析 根 据 行业 和 需求 的 不 同 ， 其 业务 


o 


dt E 
务 背景 


伴随 业 


引 笔 记 本 
数码 相机 = 
?冬季 服装 = 


而 提出 的 


Ir vs PEU = 
消费 量 一 般 


网 从 数据 挖掘 业务 定位 、 目 标定 位 、 数 据 准 备 、 模 型 开发 与 算法 应 用 以 及 
\ 的 实现 演示 了 整个 数据 挖掘 的 过 程 


目标 需求 。 因 此 理解 


+j Cr. 
BA A 


愿 


Mp WI 


等 资信 


A 


E: 


[zz] 


里 


国信 贷 市 场 空间 不 断 拓展 。 高 速 增长 的 信贷 已 成 为 当前 外 
行 和 贷款 者 作为 不 同 利益 的 市 场 主体 ， 是 
然 信 贷 业 务 的 发 展 提高 了 银行 


行 


f 


cr 


行 的 规模 , 但 信贷 业务 中 存在 的 问题 和 风险 也 日 益 暴 露出 来 。 目前 我 
套 完备 的 信贷 制度 , 银行 缺乏 征询 和 调查 借款 者 资信 的 有 效 手段 , 银行 鸡 


E 
以 对 


状况 做 出 正确 判断 , 各 种 恶意 欺诈 行为 时 有 发 生 , 产生 大 量 
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不 良 贷款 。 


TR 
p 
贷 


贷款 者 可 以 是 企业 ， 也 可 以 是 个 人 。:1 
情况 ， 贷 款 者 可 能 伪造 财务 报 
在 这 种 情况 下 ， 会 产生 逆向 选择 
险 的 贷 球 者 ,外 


日 


者 提出 向 银行 贷款 后 ， 银 行 需要 对 贷款 者 的 还 


TÉ 


信息 不 对 称 ， 银 行 


款 能 力 和 信用 状况 等 情况 进行 了 解 ， 
不 能 完全 掌握 贷款 者 的 具体 


Ed 


、 提 供 虚 假 信息 来 骗取 
。 在 信贷 市 场 上 那些 最 有 可 能 造成 不 利 结果 ， 即 造成 违约 风 


行 的 信任 ， 从 而 来 获取 银行 贷款 。 


贷款 者 分 为 两 和 


往 就 是 那些 寻求 资金 最 积极 而 且 最 有 可 能 得 到 资金 的 贷款 者 ， 这 样 银行 的 贷 
款 将 会 产生 很 大 的 风险 ， 可 能 会 产生 不 良 贷款 。 


Fh， 一 种 是 有 信誉 的 ， 另 一 种 


AE 


同时 ， 提 供 贷款 的 银行 也 面临 两 
实际 贷款 过 程 中 ， 存 在 着 银行 和 
在 目前 我 国 


H 


IH. SU 


的 信贷 市 场 9 


行 的 贷款 。 


银行 为 取得 贷款 者 的 真实 信息 ， 需 要 投入 一 定 的 成 本 来 | 
的 成 本 过 大 时 ， 银 行 的 利润 就 会 极 大 地 降低 ，i 


没有 信誉 的 ， 有 信誉 的 贷款 者 会 按时 偿还 银行 贷款 ， 而 没有 信誉 的 贷款 者 则 不 会 偿还 贷款 。 
选择 ， 即 提供 贷款 和 不 提供 贷款 。 
[贷款 者 的 信息 不 对 称 ， 银行 并 不 
FP， 贷款 者 的 信誉 状况 并 不 是 很 好 ， 各 种 经 济 i 
里 人 缺乏 诚信 、 相 互 拖欠 等 现象 层 出 不 尽 。 贷 款 者 可 能 采取 一 些 行为 ， 故 意 隐 
的 信息 来 获取 多 
Hi. MES. 


I 有 贷款 者 的 全 部 信息 。 
FJ. CHAT. 2 

SE EL EARR] 
j& Sce: 
文 时 银行 会 要 求 贷款 者 提供 


El 


VU P S 


是 指 为 担保 债务 的 履行 ， 债 务 人 或 者 第 三 人 不 转移 财产 的 占有 ， 将 该 财产 设 定 为 


担保 物 ， 债 务 人 不 履行 到 期 债务 或 者 发 生 当事人 约定 的 实现 担保 物 权 的 情形 ， 债 权 人 有 权 就 


HAET 


"n 


Cik. ERRA ERIE T, 5 


行 的 信贷 风险 会 大 大 降低 。 
和 场 逐 渐 放 宽 ， 可 以 说 现在 已 经 进入 了 一 个 信贷 发 展 的 时 代 ， 
制 比较 宽松 ， 这 也 就 带 来 了 收益 与 


贷款 条 们 


F 和 限 


风险 同时 相伴 相生 。 信 贷 违 约 客户 逐渐 增多 ， 对 银行 业 造 


成 的 损失 是 巨大 的 ， 银 行业 面临 着 巨大 的 信贷 违约 风险 。 为 防范 信贷 违约 风险 ， 规 范 信贷 流 
程 ， 必 须 依靠 高 科技 手段 。 

(2) 数据 挖掘 目标 定位 

数据 挖掘 目标 定位 是 根据 业务 需求 而 确定 的 分 析 目 标 ， 是 业务 需求 的 明确 化 定位 。 对 业 
务 需 求 的 信息 进行 提取 ， 明 确 数据 挖掘 的 主题 。 


信贷 风险 案例 分 析 : 目标 定位 


根据 业务 需求 分 析 ， 为 防范 信贷 
款 的 个 人 和 企业 通过 对 历史 信贷 数据 信息 的 分 析 ， 


警 ， 同 时 也 对 当前 


风险 ， 根 据 银行 信贷 风险 数 所 


局 仓库 中 的 数据 ， 对 申请 贷 


险 提出 更 
1) 科 


J 


贷款 风 险 的 基 而 
审查 岗 、 审 


20 规 


体系 ， 建 设 全 社 
偿 债 能 力 等 进行 纪录 ， 实 施 相应 等 级 管理 


信贷 风险 历史 数据 仓库 ， 通 过 数据 挖 


1 可行 性 的 防范 措施 。 


学 化 


DY 
HO 


H 


央 度 ， 建 立 约束 机 制 。 


信贷 情况 进行 一 个 评估 与 分 析 ， 验 证 当前 防 


风险 的 发 展 提出 更 加 有 效 的 防范 措施 ， 降 低 信贷 违约 给 外 


究 当 前 信贷 风险 状况 ， 从 而 进行 风险 预 
措施 是 否 有 效 ， 为 未 来 信贷 
来 的 损失 ， 为 银行 业 下 一 步 风 


fT 


E) 


IDEE 


里 分 款 、 防范 


H 
T 


性 工作 。 必 须 严格 执行 贷款 
批 岗 、 监 督 发 放 岗 严格 分 离 ， 


明确 岗位 责任 ， 将 贷款 的 调查 岗 、 


范 市 场 经 济 秩序 ， 完 善 社 会 信用 体系 ， 


M Ulo 


为 银 
会 共享 的 信用 数据 库 网 络 ， 建 立 企业 的 信用 档案 ， 将 其 外 


据 个 人 信 


管理 、 对 贷款 进行 精确 定价 ， 为 和 
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E。 对 应 个 人 贷款 来 说 ， 建 立 个 人 信 月 
状况 来 决定 是 否 发 放贷 款 。 完 善信 用 评级 指标 体系 ， 使 多 
行 防范 信贷 风险 创造 了 条 件 。 


x 


ri 


行 提供 良好 的 信用 环境 。 建 立国 民 信 用 
行 贷款 、 信 用 状况 、 
HER, RITR 
行 可 以 对 风险 进行 量化 


(3 


) 数据 挖掘 的 数据 准备 


数据 准备 是 村 


确定 目标 数据 ， 对 数据 预 处 到 

据 到 目标 数据 表 。ETL 过 程 实 现 数据 的 抽 
信贷 风险 案例 : 数据 准备 

中 信贷 风险 表 结 构 与 说 明 如 表 10-11 所 示 : 


数据 仓库 


据 目 标定 位 提取 信贷 风险 数据 仓库 
、 数 据 缩 放 、 数 据 


的 数据 , 为 数据 控 


如 风 险 分 析 做 准备 。 


过 滤 等 ， 提 取出 符合 目标 定位 的 有 效 分析 数 


取 、 转 换 、 装 载 到 目标 数据 表 。 


表 10-11 信贷 风险 表 结构 与 说 明 
=1 代表 申请 贷款 客户 违约 或 严重 违 红 
Goop Ban cuse [m a PE IM 
APPL ED NUMBER(8) 客户 申请 贷款 额度 
CURR DQED NUMBER(8) 客户 目前 抵押 贷款 到 期 额度 
CURR DYGJ NUMBER($8) 客户 当前 抵押 财产 估价 
pkyy_TYPE VARCHAR2G0) DIY TYPE Homem eror 
JOB TYPE VARCHAR2(30) fc PURA 
WORK. YEAR INT 客户 工作 年 数 
ZYBS NUMBER(3) 根据 实际 抵押 物 主要 贬损 数 
TQBANK ED NUMBER(92) 客户 拖欠 银行 额度 
TQ_MONTHS INT 客户 拖欠 贷款 的 月 数 
BANK. DC TIMES INT 银行 催收 次 数 
GIVECUST MAXED NUMBER(9) 银行 给 予 客户 贷款 最 高 年 限 
LOAN RATE NUMBER(84) 银行 债务 收益 比率 


登录 数据 仓库 ， 执 行 


显示 如 图 10-12 所 示 。 


“select * from xdrish” 语 句 ， 可 以 看 到 信 


贷 风 险 表 xdrish 部 分 数据 


H-8 


VOX 6 


ES 


< u G- 
GOOD BAD CUSTER  |APPL ED CURR DQED  |CURR DYGJ DKvv TYPE  |JO0B TYPE  |WORK YEAR — |ZYBS TQBANK ED TG MONTHS | 
> 5000 47479 es m 5 0.00 65 


61690 | DebtCon 


0 
| | 0 5000 66839 87168 Homelmp 
0 5000 12457 53448 Homelmp 
0 5000 90059 113714 Homelmp 
| | 1 5000 22320 34300 Homelmp 
i 5000 40000 70500 Homelmp 
| | 1 5000 100882 102700 Homelmp 
|| 1 5000 31000 47350 Homelmp 
1 5000 53125 126500 | Homelmp 
图 | 1 5000 100000 129694 Homelmp 
| | 1 5000 132000 | Homelmp 
[8 1i 5000 9100 Homelmp 
加 1 5000 34200 50830  Homelmp 
1 5000 7127? Homelmp 
lisi] 1 5000 123000 157500 Homelmp 
IE] 1 5000 16600 25250 Homelmp 
1 5000 52000 | Homelmp 
1 5000 22700 34225 Homelmp 
1 5000 6000 38575 Homelmp 
1 EOOD. 元 


【说 明 】 xdrish 表 数 据 脚 本 存储 在 qh 文件 夹 


Oracle 中 。 
ITAGE TZI 


EET 


所 需要 的 


== Other É 4 0 0.00 123 
=| Self 0 0.00 207 
= ProfExe z 7 0 0.00 194 
= Other 10 0 0.00 55 
= Mgr "m 0 0 0.00 62 
= Mgr - 5 0 1.00 59 
= ProfExe 12 

* Dffice - 3 0 000 100 
= Mgr 13 

= Dther 18 0 2.00 122 
= Other - 1 0 0.00 55 
= Other - 6 0 0.00 57 
= Other 10 0 0.00 72 
= Mgr m g 

= Other - 6 0 0.00 83 
= Other 0 1.00 285 
= Other - 4 0 0.00 75 
= Self - ? 0 1.00 335 
TL OMen: m io. 


10-12 ”信贷 风险 表 xdrish 部 分 数据 显示 


H, dt xdrish.sql 数据 脚本 导入 到 数据 仓库 


目标 进行 数据 处 理 ， 根 据 需 求 提取 信贷 风险 数据 仓库 中 的 数据 ， 对 


283 


信贷 风险 历史 数据 表 xdrish 进行 数据 挖掘 前 的 数据 处 理 ， 生 成 数据 挖掘 需要 的 风险 数据 ， 其 
数据 集 通过 SAS 工具 处 理 。 信 贷 风 险 数据 集 SAS 程序 如 下 : 
libname qhsj 'dAqh'; /* 数 据 集 存储 文件 夹 逻 辑 库 */ 


上 面 程序 执行 完成 后 4 


libname qhload oracle user=chiran password=chiran path=orcl; 


/* X3 Oracle 数 ] 


set 


run; 


EE Z AH 
data qhsj.creditrisk; /*# 
qhload.xdrish; 


/# 读 


库 */ 


E 成 信贷 风险 数据 身 
取 数 据 仓库 中 


* 


/ 


Ñ 


GESE 


成 信贷 风险 数据 集 


量 分 析 解 读 ， 如 表 10-12 所 示 。 


表 10-12 creditrisk 数据 集 说 明 


E creditrisk， 存 储 在 qhsj Z$ 


ri 


库 中 。 数 据 集 信息 


变 量 名 模型 角色 度量 方式 描 R 
GOOD BAD CUSTER | Target | binary GOOD BAD. CUSTER -0 CAWN RKE N EIEE ” 
APPL ED Inpu Interval 客户 申请 贷款 额度 
CURR DQED Inpu Interval 客户 目前 抵押 贷款 到 期 额度 
CURR_DYGJ Inpu Interval 客户 当前 抵押 财产 估价 
DKYY TYPE m Binary 2 uum 表示 合并 的 债 DKYY_TYPE -Homelmp 
JOB_TYPE Inpu Nominal 客户 职业 类 多 
WORK. YEAR Inpu Interval 客户 工作 年 数 
ZYBS Inpu Interval 根据 实际 抵押 物 主要 贬损 数 
TQBANK ED Inpui Interval 客户 拖欠 银行 额度 
TQ_MONTHS Inpu Interval 客户 拖欠 贷款 的 月 数 
BANK. DC TIMES Inpu Interval 银行 催收 次 数 
GIVECUST MAXED Inpu Interval 银行 给 予 客户 贷款 最 高 年 限 
LOAN RATE Inpu Interval 银行 债务 收益 比率 
(4) 模型 的 开发 与 算法 的 应 用 
数据 挖掘 过 程 中 的 关键 点 是 模型 的 开发 和 算法 的 选择 。 模 型 的 开发 根据 目标 定位 建 
立信 贷 风险 模型 。 设 计 合 理 的 数据 挖掘 模型 是 进行 有 效 挖 握 有 用 信息 的 关键 环节 。 首 先 
需要 建立 目标 模型 流程 图 , 按照 模型 流程 图 进行 数据 挖掘 。 信 贷 风 险 模 型 流程 如 图 10-13 
所 示 。 
根据 模型 流程 图 和 目标 定位 ， 选 择 合适 的 算法 是 挖掘 有 用 信息 的 关键 点 ， 算 法 的 选择 要 
适合 目标 定位 ， 根 据 响应 变量 和 因 变 量 之 间 的 关系 选择 合适 的 算法 。 
信贷 风险 是 对 二 值 响 应 变量 的 判断 ， 因 此 信贷 风险 选择 逻辑 回归 算法 进行 数据 挖掘 。 
本 实验 主要 用 到 逻辑 回归 ， 既 二 值 回归 ， 也 就 是 事件 要 么 发 生 ， 要 么 不 发 生 ， 其 值 用 数 
值 表示 取 值 为 1 和 0 。 运 用 的 数学 模型 如 下 : 
设 事件 的 自 变 量 为 x1，x2，x3，…，xk， 某 事件 在 自 变量 条 件 下 发 生 的 概率 为 p， 则 此 事 
件 不 发 生 的 概率 为 1-p。 有 时 为 更 明显 地 看 到 事件 的 变化 ， 可 以 求 事件 发 生 与 不 发 生 概率 的 比 


例 ， 此 实验 的 比例 为 发 生 事件 概率 除 以 不 发 生 
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事件 


概率 ， 用 数学 公式 表示 为 rate=p/(1-p)。 


信贷 风险 模型 创建 流程 


测试 (test) 
数据 集 


图 10-13 


银行 内 部 征 信 资料 


生成 信贷 基本 数据 


建 模 (model) 
数据 集 


运用 


检验 
(Validation) 
数据 集 


信贷 风险 数据 挖掘 模型 流程 


10.4 SAS/EM 数 据 挖 掘 实 现 过 程 


根据 业务 需求 和 目标 定位 ， 处 理 数据 挖掘 数据 ， 选 择 挖掘 算法 ， 建 立 模型 。 数 据 挖掘 受 
两 个 重要 因素 的 影响 :一 个 是 数据 挖掘 的 数据 质量 和 数据 量 大 小 ， 另 一 个 是 所 选择 的 数据 控 
出 来 的 可 能 是 错误 的 信 


掘 技术 的 合理 性 。 如 果 数 据 质量 和 数据 量 达 不 到 一 定 的 程度 ， 则 挖掘 
县 。 数 据 挖掘 技术 的 选择 不 合理 可 能 对 数据 挖掘 结果 的 精确 度 有 很 大 的 影响 。 


数据 挖掘 过 程 需要 以 下 人 员 配 合 才能 保证 数据 挖掘 的 成 功 。 


1) 业务 人 员 : 精通 业务 ， 理 解 并 解释 业务 目标 ， 根 据 业 务 需 求 确定 业务 数据 和 数据 挖掘 


算法 的 业务 需求 。 


2) 数据 分 析 人 员 : 精通 数据 分 析 技 术 ， 能 够 把 目标 需求 转化 为 数据 挖掘 的 技术 
3) 数据 库 与 数据 仓库 人 员 : 精通 数据 库 技 术 和 数据 仓库 设计 。 


数据 挖掘 是 一 个 多 种 专业 人 员 合作 开发 的 过 程 。 目 前 世界 上 3 


SAS/EM 数据 挖掘 模式 、SPSS 的 Clementine 和 KXEN 公司 的 KXEN 


体 应 用 哪个 工具 根据 需求 选择 ， 但 数 所 
进行 数据 挖掘 。 


名 挖掘 的 流程 和 设计 思路 是 不 变 


自动 数据 挖 扣 
的 。 本 书 使 用 


来 实现 。 


主流 的 数据 挖掘 


工具 。 具 


SAS/EM 
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信贷 风险 案例 选择 SAS/EM 模块 实现 整个 数据 挖掘 流程 。 


实现 信贷 风险 模型 开发 与 应 用 ， 操 作 步 骤 如 下 。 
(1) 启动 SAS/EM 
启动 SAS/EM 有 以 下 两 种 方式 。 
(D 在 SAS 命令 窗口 输入 “miner”。 


根据 SAS/EM 的 SEMMA 流程 


D 选择 SAS 荣 单 中 的 “解决 方案 ”一 “分 析 ” 一 “企业 数据 挖掘 ”命令 ， 打 开 数 据 控 


掘 模块 ， 如 图 10-14 所 示 。 
解决 E IQ) E H) 


S) 
E 开发 和 编程 四 ) 
EE 
附件 Qu) 
ASSIST (T) 
Sg) 
EIS/OLAP 应 用 程序 生成 器 Œ) 


图 10-14 


(2) 创建 数据 挖掘 工程 


程 图 都 由 工程 来 控制 和 管理 。 
选择 SAS 菜单 中 g Gr m “新 建 ” Bre “项 


SESIESE! 


i124 


建立 工程 是 为 了 便于 管理 菜 个 数据 挖掘 的 工程 。 


3D 可 视 分 析 Q0 
HRR E) 
实验 设计 QD 

企业 数据 挖掘 E) 
HEELS UR AR QD 
向 导 式 数据 分 析 O 
变 互 式 数据 分 析 D 


BH EM 窗口 


所 有 与 此 工程 相关 的 数据 挖掘 控件 和 流 


目 ” 命 令 ， 在 打开 的 Create new Project 对 


话 框 中 的 Name 文本 框 中 输入 credit risk 在 Location〈 存 储 工 程 的 位 置 ) 处 选择 存储 工程 的 文 


件 夹 ， 此 数据 挖掘 实例 工程 存储 在 D:\qh 文件 夹 里 ， 


如 图 10-15 所 示 。 


Name: 


X| 


[credit risk 


而 


Locat ion: 


10-15 创建 了 


(3) 获取 数据 源 


添加 一 个 输入 数据 源 结 点 ， 为 本 次 数据 挖 扩 
I 样 ， 控 件 的 子 控件 节点 Input Data Source 拖 动 到 流程 图 


将 Sample < 
如 下 : 


L1Client/server project 


D:^\hh Browse... | 


Create | 
Cancel | 


[ 程 对 话 杠 


工作 区 ， 方 法 


1) 选择 Sample 控件 下 的 Input Data Source 结 点 ， 按 住 鼠 标 左 键 将 Input Data Source 拖 


入 右 侧 的 工作 空间 。 


2) 双击 工作 空间 中 的 Input Data Source 结 


点 


4v 


进入 Input Data Source 的 设置 窗口 。 


3) 在 Input Data Source 设置 窗口 中 的 Data 项 中 单 击 Select 按钮 ， 选 择 数 据 源 ， 进 入 SAS 
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Data Set 窗口 。 在 Library 项 选择 qhsj 逻辑 库 中 的 creditrisk〔 信 贷 风险 〉 数 据 集 ， 如 图 10-16 


Bras. 


Library: [ous] |F] 


Tables: 
CREDITRISK 


DK | Cancel | 


10-16 ”获取 数据 源 窗 口 


=|D| x| 


4) 单 击 “OK” 按 钮 ， 出 现 如 图 10-17 所 示 的 窗口 ，Source Data 项 为 读 入 数据 源 项 ， 通 
过 Select 按钮 浏览 逻辑 库 下 的 数据 集 。 此 实例 对 应 的 数据 源 为 QHSJ 逻辑 库 下 的 CREDITRISK 
数据 集 。Role 项 可 以 取 RAW、TRAN、VALIDATE、TEST 和 SCORE. Metadata Sample (76 
数据 样本 ) 项 显示 出 样本 大 小 ， 默 认为 2000。 如 果 小 于 2000， 取 元 数据 样本 实际 大 小 。 此 实 
例 元 数据 样本 为 5960。Columns 项 显示 出 此 元 数据 样本 的 变量 个 数 ， 此 实例 变量 为 13 个。 通 


过 Change 按钮 可 以 改动 元 数据 样本 大 小 。 


=l0| x| 


Data | Variables ] Interval Variables | Class Yariables | Notes | 


Source Data; |BHSJ.CREDITRISK Select... | 
Dutput : EMDATA. VIEW C4F 


Description:  |DHSJ.CREDITRISK 


Role: RAW v| Metadata sample: 


Rows: 5,960 Size: 2,000 
Columns: 13 Mame:  — EMPROJ.SMP VIFD 


Change... 


10-17 数据 源 信息 窗口 


选择 Input Data Source 窗口 中 的 Variables 可 以 浏览 数据 源 变 


B 


4 


E s 


如 


图 10-18 所 示 。 
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iE Tapet Data Source A 


Data Variables ] Interval Variables l Class Variables | Notes | 
me —— t RPM 

(GOOD BAD CUSTER input binary num BEST12. 2 

APPL. ED input interva num — 9. 

CURR DüED input interva num — 9. 3. 

CURR DYGJ input interva num — 39. 3. 

DKYY. TYPE input binary char $30. $30. 

JOB. TYPE input nominal char $30. $30. 

WORK. YEAR input interva num — BESTI2. — 12. 

ZYBS input interva num — 4. 4. 

TQBANK ED input interva num — 11.2 11.2 

TG MONTHS input interva num — BESTI2. 12. 

BANK. DC. TIMES input interva num — BESTI2. — 12. 

GIVECUST. MAXED input interva num — 10. 10. 

LOAN RATE input interva num — 10.4 10.4 四 
| 本 xd 


图 10-18 ”获取 数据 源 窗口 Variables 选项 对 应 变量 窗口 


选择 Input Data Source 窗口 中 的 Interval Variabels 可 以 浏览 数据 源 区 间 变 量 ， 选 择 Class 
Variables 可 以 浏览 查看 变量 的 分 类 情况 。Notes 项 可 以 添加 注释 ， 写 一 些 便于 阅读 此 数据 挖 气 
相当 于 程序 中 的 注释 语句 。 此 实验 通过 Variables 项 找到 GOOD BAD CUSTER 数据 

， 在 GOOD BAD CUSTER 行 的 Model Role 项 处 单 击 鼠 标 右键 ， 在 弹出 的 快捷 菜单 中 选 
r Set Model Role〈 设 置 模型 角色 ) , ZA JE CESEIBITISE TR H target， 如 图 10-19 所 示 。 


-inixi 


Data Variables ] Interval Variables | Class Yariables ] Notes | 


[ie en Model Role p 
GOOD BAD CUSTER num 
APPL_ED input 


CURR_DQED input 
CURR_DYGJ input 
DKYY TYPE input 


rejected 
id 


X 


10-19. 模型 角色 设置 
设置 好 数据 挖掘 目标 变量 后 ， 数 据 挖掘 分 析 的 目标 变量 属性 显示 如 图 10-20 所 示 。 
ini xl 


Data ^ Variables | Interval Variables | Class Variables | Notes | 


GOOD BAD CUSTER 

APPL. ED input i Inter num 
CURR DOED input interva num 
CURR. DYGJ input interva num 
DKYY TYPE input binary char 
JOB. TYPE input nominal char 
WORK. YEAR input interva num 
ZYBS input interva num 
TüBANK ED input interva num 
TG. MONTHS input interva num 
BANK. DC TIMES input interva num 


3 
3 
3 
$ 
$ 
B 
4 
1 
B 
B 
RJYFPNRT MayFm innuit interval rum E 
4 | » 


D 


10-20 GOOD BAD CUSTER 变量 设置 
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5) 关闭 Input Data Source 设置 窗口 ， 保 存 设置 ， 显 示 数 据 源 控件 


如 


图 10-21 所 示 。 


6) 数据 源 获 取 完成 后 ， 要 运行 对 控件 ， 使 数据 源 4 


处 单 击 鼠 标 右键 ， 


QHSJ. 
CREDITRISK 


KI 


10-21 X 


(4) 数据 源 探 测 


为 对 获取 到 的 数据 源 有 一 个 整体 的 认识 ， 需 要 月 


在 弹出 的 快捷 菜单 


居 源 控件 QHSJ.CREDITRISK 


E 效 ， 在 数据 源 控 伯 
选择 Run， 如 图 10-22 Br. 


Delete 
Clone... 


10-22 ”运行 数据 源 控 件 


测 ， 


将 Explore CJUO 控件 


如 


图 10-24 所 示 。 


QHSJ. 
CREDITRISK 


如 图 


图 10-23 QHSJ.CREDITRISK TO Insight 窗 


SEE 


通过 Insight 窗口 


用 的 说 明文 字 。 


此 实例 选择 基于 探测 方 


GOOD BAD CUSTER 变量 查看 变量 


(50 对 分 析 数 据 集 进行 拆 分 
为 验证 


以 掌握 哪些 变量 对 实现 数据 挖掘 目标 分 析 更 重要 。 

的 子 控件 节点 Insight 拖 动 到 流 种 
QHSJ.CREDITRISK 数据 源 上 ， 当 光标 变 成 “+?” 
样 就 建立 了 数据 源 到 探测 节点 的 连接 ， 


PIRHI E 


数据 源 探 测控 从 


图 工作 


x, 
鼠标 左 键 画 线 到 Insight 节点 ， 这 
10-23 所 示 。 双 击 Insight 节点 打开 Insight 窗口 ， 


QHSJ.CREDITRISK， 


F QHSJ. CREDITRISK 


[对 变量 分 布 进行 一 个 探 


然后 把 鼠标 放 到 


„Insight Settings —— 


Data ] Variables | Notes | 


Data set: 


EMDATA.YIEW_C4F 


Description: QHSJ.CREDITRISK 


Insight based on: 


© Sample 
€ Entire data set 


Properties... 


= 上 | xl 


Data set size: 


5960 
Generate new seed [ 12345 


到 探测 节点 可 以 基于 的 探测 方 
和 Entire data set〈 实 际 的 数据 集 大 小 ) Variables 标签 浏 


式 为 Entire data set (实际 的 数据 集 


图 10-24 


RAP 
EH 


XJ Sample GH 


大 小 ) R 


Insight 窗口 


模型 ， 此 实验 把 源 数据 集 拆 分 成 训练 数据 集 (Train) (〈 占 源 数 据 集 


数据 集 默 认 样本 大 小 ) 
量 属性 特征 ，NOTES VJ 


ERE 


局 此 窗口 。 在 出 现 的 


询问 是 否 保存 此 窗口 的 设置 中 选择 “是 ”， 保 存 设 置 。 然 后 单 击 鼠 标 右 键 选 择 “Run”， 在 出 
现 的 询问 窗口 是 否 浏览 结果 中 选择 “是 ”， 出 现 的 结果 如 图 10-25 所 示 。 

运行 此 探测 节点 。 运 行 完 后 ， 选 择 菜单 栏 的 “分 析 ”， 然 后 选择 “分 布 ”， 在 出 现 的 窗 

TRE (Ctr) 键 可 以 选择 要 查看 的 变量 ， 然 后 单 击 “Y” 按 钮 就 可 以 了 。 此 实例 只 选择 


分 布 ， 可 以 看 出 变量 GOOD BAD CUSTER 对 应 值 为 1 
的 记录 为 1189 个 ， 结 果 显 示 如 图 10-26 所 示 。 


的 60%)、 校 验 
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数据 集 (Validation). 〈 占 源 数据 集 的 20%) 和 测试 数据 集 (Test) 〈 占 源 数据 集 的 20% )。 


GOOD BAD C | 
4 ENDATA. YIEY C4F 
区 
d. 中 一 一 习 
jm]: 01... 5000 30 : Debt Con - 
E E o m ee B E s 
o 0 : 48. HoneInp GOOD. BAD. .CUSTER 
= 0 5000 30053. 113714. HomeInp DLA 
L| ds" BUDE 22320 34300 : Home Imp. 
= 1 5000 40000 70500. HomeInp 
= 177775000. 100882 102700: Homelmp 
= 1 5000 31000 47350. HomeInp 
E 17778000. 53125... 126500. HomeInp 
可 1 5000: ^ 100000 123634 HomeImp 
Ei 1 5000 ”12000 Homelmp 
可 1 5000 x 3100 : HomeImp 
F —L— 319 2 3059) estie -— 
= " " aet < ome Lmp. 
E Ü 5000 123000. 157500. HomeImp 加 ars 
Ej 1 5000 16800 25250. HomeInp 1003 EXA 1.0000 38.08 1.0000 
|m] 1 p000 NU 52000 Homelmp 153 g 0 37.51 1.0000 
司 T 1 5000 $5700 34225 'HomeInp 503 中 位 数 0 $5.02 1.0000 
mJ 19 t 5000 BÜUÜ 38575. HomeImp 253 0 30.0% 1.0000 
= 20 T 1778000 72800 HomeImp 03 大小 值 0 10.03 0 
可 一 1 5000 - 784113. HoneInp > 1.0000 5.01 0 
ml 99 fi RANA FTIR ppPnn Neht Can 99 1 0 2.53 0 
Ul | [A 0 1:02 0 
: MEAT Sap Us a N AN Eis 
图 10-25 Insight 运行 结果 浏览 窗口 图 10-26 GOOD BAD CUSTE R 变量 探测 分 布 信息 


将 Sample《〈 抽 样 ) 控件 的 子 控件 节点 Data Pattition 拖 动 到 流程 


图 工作 区 ， 然 后 把 鼠标 放 


到 DZ.CREDIT 数据 源 上 ， 当 光标 变 成 “+” 形 状 时 按 住 鼠 标 左 键 画 线 到 Data Partition 节点 ， 
这 样 就 建立 了 数据 源 到 数据 拆 分 节点 的 连接 ， 如 图 10-27 所 示 。 
双击 “Data Partiton” 节 点 打开 Data Partiton 窗口 ， 如 图 10-28 所 示 。 


we Data Partition 


Notes | 


Data | Variables Partition | Ctratiei 


lon | Us 


=|| x| 


ined | Output | 


10-27 Data Partition 节点 窗口 


D 


选择 Partition 标签 的 窗口 进行 数据 集 拆 分 ， 在 Method Cf 


_Method : Percentages: 
& Simple Random Train: 
QStrat if ied 
OUser Def ined Validation: 

-Random Seed: Test: 
L Generate New Seed | | 12345 Total: 
QHSJ. Data 
CREDITRISK Partition 


10-28 打开 Data Partition 节点 显示 窗 


方式 ) 选项 


区 选择 Simple 


Radom《〈 随 机 抽样 ); 在 Percentages〈 数 据 集 拆 分 占 百分比 ) 选项 区 把 Train (训练 集 〉 修改 
为 占 总 数据 集 的 60%，Validation 〈 校 验 集 ) 修改 为 占 总 数据 集 的 20%，Test〈 测 试 集 )》 修改 


为 占 总 数据 集 的 20% 。 通 过 数据 集 的 拆 分 ， 可 以 得 上 


在 本 实验 ， 训 练 集 记录 条 数 为 


5960x0.6=3576， 校 验 集 记 录 条 数 为 $S960x0.2=1192， 测 试 集 记 录 条 数 为 5960x0.2=1192。 设置 


完成 后 进行 保存 并 关闭 该 窗口 。 
(6) 替换 数据 集中 的 缺失 值 
由 于 回归 和 神经 网 络 模 型 不 具 
值 。replacement 用 来 处 理 数据 源 中 的 缺失 值 。 
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| 


对 缺失 值 的 处 理 功 能 ， 此 处 用 人 处理 缺失 值 接点 处 理 缺 失 


实际 开发 中 对 于 
失 值 。 


将 Modify (修改) 控件 的 子 控件 节点 “Replacement” 拖 动 到 流程 图 工作 区 ， 然 后 把 鼠标 


回归 模型 或 神经 网 络 模型 都 需要 replacement 控件 处 理 分 析 数 据 源 的 缺 


放 到 Data Partition 节点 上 ， 当 光标 变 成 “+” 形 状 时 按 住 鼠 标 左 键 画 线 到 Replacement 节点 ， 


这 样 就 建立 了 属性 设置 节点 到 蔡 换 缺失 值 节点 的 连接 ， 


节点 打开 Replacement 窗口 ， 如 图 10-30 所 示 。 


如 图 10-29 所 示 。 双 击 Replacement 


=| 口 | x| 


Notes | 


; ] Dutput 
Class Variables | 


Variables 


Tree Imputat ion 
Data Defaults 


m 


加 Replace before imputation 


口 Replace unknown levels with: [nost frequent value zÍ 


-一 口 Create imputed indicator variables: 


prefivi M 


rejected »| 


Replacement 


General | Imputation Methods | Constant values 


D sd 


10-29 Replacement 节点 窗 


KI 


口 


本 案例 选择 Repalce before imputation， 在 输入 前 


10-30 打开 Replacement 显示 窗口 


替换 缺失 值 。 


通过 此 窗口 可 以 进行 缺失 值 设置 ， 如 选择 “Imputaiton Methods” 可 以 设置 替换 缺失 值 的 


方式 ， 如 图 10-31 所 示 。 


E Replacement 
Cd | Dutput 


Tree Imputat ion Rr 
Interval Yariables 


Data Defaults 


Notes | 
Class Yariables | 


-Interval Variables: 
Method: 


mean 


可 


-Class Variables: 


Method: [most frequent value(count) 


可 


General 


图 10-31 


ES. 


Imputation Methods 


打开 Replacement 中 的 Imputation Mthods 标签 显示 窗口 


Constant values 


通过 此 图 看 到 Interval Variables 类 型 的 变量 
进行 选择 ， 如 
单 击 向 下 的 小 箭头 进行 选择 ， 如 


选择 mean GEB); Class Variables 类 型 的 变量 蔡 换 方式 可 
用 most frequent value 〈count)〈 最 大 频率 值 蔡 换 )。 
| 样 数据 集 的 均值 蔡 换 缺失 值 。 


替换 方式 可 以 在 Method 项 单 击 向 下 的 小 箭头 


以 在 Method 项 


【说 明 】 Interval 类 型 的 变量 用 


Normal. Binary 和 Ordinal 类 型 的 变量 用 抽样 数据 集中 的 最 大 频率 值 蔡 换 。 


《7) 建立 模型 


二 分 类 Logistic 


回归 模型 适合 于 目标 变量 为 二 项 分 类 ， 其 目标 变量 值 只 有 两 个 分 类 值 ， 如 


1 和 0。 在 本 实验 中 GOOD BAD CUSTER 可 以 取 的 值 为 1 和 0 两 个 值 , GOOD BAD CUSTER 


为 sep 时 ， 


表示 申请 贷款 客户 违约 或 严重 违约 ，GOOD BAD CUSTER 为 “0” 时 ， 表 示 申 


请 贷款 客户 按时 偿还 贷款 。 

将 Model GKAL) 控件 的 子 控件 节点 Regression 拖 动 到 流程 图 工作 区 ， 然 后 把 鼠标 放 到 
Replacement 节点 上 ， 当 光标 变 成 “+” 形 状 时 按 住 鼠 标 左 键 画 线 到 Regression 节点 ， 这 样 就 
建立 了 缺失 值 蔡 换 节点 到 回归 模型 节点 的 连接 ， 如 图 10-32 所 示 。 

双击 Regression 节点 ， 打 开 回 归 模 型 ，Variables 项 显示 信息 如 图 10-33 所 示 。 


DHSJ. 
CREDITRISK 


选择 图 


图 10- 


Linear and Logistic Regression: Model Uni - [nl x| 


Advanced | Output | Notes ] 
Data Variables | Model Options | Selection Method | Initialization ] 


Name | Status | Model Role | Measurement | Type| Format 4 
GOOD BAD CUSTER use target binary num — BESTI2. 
APPL. ED use input interval num 9. 
CURR_DQED use input interval num 9. 
D CURR_DYGJ Use input interval num — 39. 
Part] " on DKYY TYPE use input binary char $30. 
JüB TYPE use input nominal char $30. 
WORK_YEAR use input interval num — BESTI2. 


E-——À pd ZYBS use input interval num 4. T 
mier xum zl à m | 


Replacement ^ Regression 


32 Regression 节点 10-33 Regression 模型 Variables 项 显示 信息 


10-33 中 的 Model Options 项 可 以 对 模型 类 型 Tyep 进行 设置 。 本 案例 选择 Logistic 


(逻辑 回归 模型 )， 回 归 函 数 Link Funciton 为 LOGIT， 如 图 10-34 所 示 。 


【提示 】 
(target)。 


=Iolx| 


Linear and Logistic Regression: Model Unt 


Advanced ] Output | Notes | 
Data | Variables Model Options | Selection Method | Initialization | 


Type: Logistic — Y| 
Link Function: [LOGIT 下 
Input Coding; — € Deviation QOGLM 


LlSuppress Intercept 


Target Definition — Regression 


图 10-34 Model Options 选项 设置 


回归 模型 在 使 用 前 需要 对 读 入 的 数据 源 Input Data Source 控件 先 指定 目标 变量 


【注意 】 回归 模型 适合 的 目标 变量 为 如 下 类 型 的 目标 变量 的 属性 : Interval、Ordinal、 


Nominal 和 Binary 类 型 。 


选择 图 


10-34 中 的 Selection Method 标签 ， 可 以 设置 


Iz] 


归 方 式 ， 如 图 10-35 所 示 。 


此 案例 选择 Stepwise 回归 方式 。 由 于 不 考虑 数据 集中 两 个 或 两 个 以 上 变量 联合 作用 于 目 
标 变 量 ， 不 需要 对 Effect Hierarchy 进行 设置 。 
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Linear and Logistic Regression: Model Vn! 
Advanced ] Output ] Notes | 
Data | Variables | Model Options Selection Method | Initialization | 


Method: [Stepwise — v| 

Criteria:| Profit / Loss x| 

Effect Hierarchy 
[ Sequenti 
Variable type: [Class v| 
Moving effect rule: one —— | 


General 


10-35 Linear and Logistic Regression: Model 中 的 Selection Method 标签 窗口 


【说 明 】 常用 的 回归 模型 有 以 下 3 种 方式 : 

1) FORWARD: 前 进 法 一 开始 模型 中 没有 变量 ， 每 次 将 一 个 最 显著 的 变量 引入 模型 ， 直 
到 模型 以 外 的 变量 不 再 有 显著 的 值 为 止 。 

2) BACKWAND: 后 退 法 一 开始 模型 中 含 所 有 自 变量 ， 每 次 从 模型 中 剔除 一 个 贡献 最 小 
的 变量 ， 直 到 模型 中 只 剩 下 均 为 显著 的 变量 为 止 

3) STEPWISE: 逐步 法 每 次 引入 模型 一 个 最 显著 的 变量 ， 然 后 考虑 从 模型 中 剔除 一 个 最 
不 显著 的 变量 ， 直 到 既 没 有 变量 引入 也 没有 变量 剔除 为 止 。 

关闭 此 窗口 ， 在 出 现 的 对 话 框 中 保存 设置 ， 如 图 10-36 所 示 。 


BIET 
Model Name: stepwise 


Model Description: [edit risk regression stepwisdl 


Ok | Cancel | 


图 10-36 Save Model As 对 话 框 


(D) Model Name〈 模 型 名 字 ) : 对 应 项 输入 模型 名 字 ， 本 案例 输入 stepwise- 

@ Model Description 〈 模 型 描述 项 ) : 输入 对 模型 的 描述 信息 。 

至 此 整个 回归 模型 已 经 建立 完成 ， 单 击 Regression 节点 ， 运 行 回 归 模 型 ， 在 出 现 的 对 话 
框 中 单 击 “OK” 按 钮 可 以 查看 运行 结果 。 选择 回归 模型 运行 结果 的 “Output” 标 签 , 如 图 10-37 
所 示 。 

通过 图 10-37 可 以 看 到 训练 集 有 3576 个 信贷 客户 ， 其 中 违约 信贷 客户 为 704， 无 违约 信 
贷 客户 2872 信贷 客户 。 

选择 Estimates 可 以 看 参数 评估 信息 ， 可 以 查看 显示 回归 模型 中 有 效 的 Effect T-score。 对 
输入 变量 而 言 ， 输 入 变量 的 重要 性 的 预测 从 左 到 右 逐 渐 减 小 ， 表 示 输 入 变量 对 模型 的 影响 度 
逐渐 减 小 ,也 就 是 变量 对 模型 的 影响 左边 的 TQOBANK ED 变量 最 重要 , 其 次 为 TQ_MONTHS， 
其 他 依次 为 ZYBS、LOAN RATE 和 BANK DC TIMES. 。 对 影响 目标 变量 重要 的 输入 变量 加 
以 防范 可 以 减少 违约 信贷 客户 ， 如 图 10-38 所 示 。 
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E: Results - Regression 


Model | Estimates | Plot | Statistics | Code | Log — Outpu 


SAS 系统 


The DMREG Procedure 
Model Information 


Training Data Set 
DMDB Catalog 
Target Variable 
Target Measurement Level Ordinal 
Number of Target Categories 2 


EMPROJ . DM_DGMOOOOO 


Error MBernoul li 
Link Funct ion Logit 
Number of Model Parameters 17 

Number of Observat ions 3576 


Target Profile 


Stepwise Selection Procedure 


ini xl 
t | Notes | 


2011 年 08 月 0? 日 星期 日 "| 


EMDATA. DM. DGMOOQ00 . VIEW 
GOOD BAD CUSTER (GOOD BAD CUSTER) 


Drdered Total 
Yalue GOOD BAD CUSTER Frequency 

1 1 704 

2 0 2872 


sf? 


10-37 Results- Regression 显示 信息 


E] Results - Regression 


Model 


G Effect T-scores OEstimates O Table 


Absolute Value 


-- Ini x| 


Estimates ] Plot ] Stat ist ics | Code ] i] Dutput ] Notes ] 


EM amm D 


TQBANK ED TQ MONTHS LOAN RATE 


Intercept:GOOD B ZYBS 


Effect T-scores 
9. 112548073. 


14. 768182034 


10-38 Estimate 项 显示 信息 


在 回归 模型 上 单 击 鼠 标 右键 ， 在 弹出 的 对 话 框 中 选择 “Model Manger”( 模 型 管理 )， 在 
模型 管理 中 选择 “工具 ” 在 弹出 的 菜单 中 选择 “升降 图 ” 如 图 10-39 所 示 。 

(8) 建立 决策 树 模 型 

对 于 决策 数 模型 ， 不 需要 蔡 换 缺失 值 。 对 于 数据 量 比较 大 的 数据 集 ， 决 策 树 有 可 能 失去 


作用 。 决 策 树 也 经 常用 来 对 二 信 变 量 进行 分 类 。 


Partiion 节点 上 ， 


[s 


遇 性 设置 节点 到 决策 树 模型 节点 的 


将 Model (模型 ) 控件 的 子 控件 节点 Tree 拖 动 到 流程 图 了 


连接 ， 如 图 10-40 所 示 。 
双击 Tree 节点 打开 Tree AO, Variables 项 显示 信息 ， 妇 
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当 光 标 变 成 “+” 形 状 时 按 住 鼠 标 左 键 画 线 到 Tree 节点 ， 


LEK, 然后 把 鼠标 放 到 Data Set 
这 样 就 建立 了 数据 


IS 


10-41 所 示 。 


: Lift Chart 


-verT1ical HX1S value 


& XResponse 
QXCaptured Response 
OLift Value 

OProf it 


& Cunulative 
© Non-Cunulat ive 


.Bar Color for 


10 20 330 340 50 60 TO 80 


-Target Profile — — 


Percentile 


Edit... | 


10-39 选择 “升降 图 ” 


Tool Name 
D Baseline Dkr: 


QHSJ. 
PREDITRISK 


Name 


Tree: Hodel Untitled E 


Data — Variables ] Basic ] Advanced | Score | Notes | 


Format 4 


GOOD BAD CUSTER target 
APPL ED use input 
CURR. DOED use input 
CURR_DYGJ Use input 
DEYY TYPE use input 
JOB TYPE use input 
WORK. YEAR use input 
ZYBS Use input 
TQBANK_ED Use input 
TO MONTHS use input 
4 


Replacement ^ Regression 


binary 
interval 
interval 
interval 
binary 
nominal 
interval 
interval 
interval 
interval 


BEST12. 
3. 

3. 

3. 
$30. 
$30. 
BESTI2. 
4. 
1.2 


BESTI2. v 
» 


图 


击 Basic 标签 可 以 查看 决策 树 的 基本 信息 ， 如 图 10-42 所 示 。 


Tree: Wodel Untitled 


Data ] Variables — Basic | Advanced | Score | Notes | 


Splitting criterion 


&Chi-square test Significance level: | 0.200 
OEntropy reduction 
QOGini reduction 


Minimum number of observations in a leaf: 5 
Übservations required for a split search: 35 
Maximum number of branches from a node: ? 
Maximum depth of tree: B 
Splitting rules saved in each node: 5 
Surrogate rules saved in each node: 0 


加 Treat missing as an acceptable value 


图 10-42 Basic 项 信息 显示 


10-40 决策 树 Tree 节点 图 10-41 Tree 模型 Variables 项 信息 显示 
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此 决策 树 的 Basic 标签 窗口 显示 了 默认 值 , 1 
number of observations in a leaf” 项 对 应 的 是 决策 树叶 子 节点 最 小 的 观测 值 5; 


F 方 检验 的 显著 水 平 默认 


值 为 0.200;“Minmum 


“Maximum 


number of branches from a node” 项 对 应 的 是 决策 树 一 个 节点 的 分 支 最 大 分 支 数 2; "Maximum 
depth of tree” 项 是 设置 决策 树 的 深度 ， 此 处 为 6， 表 示 最 大 树 高 为 6 层 。 对 于 上 面 的 默认 设 


E 


对 Basic 标签 项 所 


E 
S) 


置 可 以 根据 需求 进行 更 改 ， 此 案例 选择 默认 值 。 


性 的 解释 说 明 如 下 : 


1) Splitting criterion. 


划分 标 ;# 


EH 
E 


(D Chi-sqare test: 


Ali E, 
(3 Gini reduction: 
Gini 不 纯 性 。 


侍 项 选项 说 明 : JR 
可 以 选择 以 下 划分 规则 。 


其 默认 Significance level. (显著 性 指标 ) 为 0.20。 
(2) Entropy reduction: JH Zf, 


H 


四 目标 变量 的 度 


Tit 


方式 进行 选择 ， 对 于 定性 


w 


所 的 目标 变 


EJ 
— Jet 


x 检验 (默认 ) 一 一 Pearson x 检验 用 于 衡量 对 目 


sa 


通 


E 


TRAE JN RS fg E 


B 


基尼 系数 约 简 ， 通 过 对 基尼 系数 大 小 


2) 对 于 连续 型 


目标 变量 ， 可 以 选择 以 下 两 种 划分 规则 : 
F 检验 (默认 ) 一 一 F 检验 的 P [fü 55 


;点 一 致 性 有 关 ， 默 认 显著 性 


点 的 均 方差 检验 。 


一 致 性 约 简 一 一 该 约 简 基 于 丝 

本 案例 中 目标 变量 家 庭 资 产 抵押 贷款 为 二 元 变量 ， 
比较 合适 的 划分 规则 。 

同时 可 以 在 Basic 


选择 Chi-square 


标签 指定 以 下 决策 树 相 关 属性 值 。 


反映 结 点 不 弓 


9 衡量 反映 结 点 不 纪 


标 变量 建立 分 支 结 点 ， 


PE, UON 


性 ， 也 成 为 


n 
ü 


指标 为 0.20。 


test (x 检验) 是 一 个 


Minimum number of observations in a leaf: 指定 叶 节 点 包含 的 最 小 观察 记录 (default = 1)。 


Observations required for a split search: 指定 划分 的 节点 小 于 此 处 定义 的 条 件 , 此 处 节点 记 
录 数 就 不 再 划分 分 支 。 该 选项 保证 划分 的 结 点 都 有 观测 数据 ， 并 且 对 于 比 该 项 指定 的 观测 值 
还 要 少 的 结 点 不 进行 继续 划分 。 


Maximum number of branches from a node: 指定 拆 分 节点 分 支 的 最 大 观察 记录 数 (default= 2). 
Maximum depth of tree: 指定 树 的 最 大 高 度 (default ^ 6). 


Splitting rules saved in each node: 指定 每 
Surrogate rules saved in each node: 1 
Treat missing as an acceptable value: 对 处 到 


b a A 


b 224 


HJE RE 


决 失 值 蔡 换 。 


Em 


一 个 节点 保存 划分 规则 保留 项 Cdefault = 5). 
一 个 节点 的 保存 替代 规则 (default = 0). 


决策 树 “Advanced” 标 签 项 可 以 对 Sub-tree (THD 进行 高 级 设置 ， 如 图 10-43 所 示 。 


Model assessment 


= 
ERI 


M 


X 


measuer: 评估 度量 模型 的 选择 。 评 估 度 


模型 是 


基于 从 有 效 的 数据 中 


获得 的 决策 树 结果 中 选择 出 最 佳 的 决策 树 模 型 ， 对 于 范畴 型 目标 变量 或 间断 型 目标 变量 会 有 
不 同 的 评估 度量 模型 选择 。 
Sub-tree: 自 定 子 树 模型 。 该 选项 在 于 设 定 怎 样 判断 一 棵 决策 树 已 经 足够 大 了 。 


P-value adjustment 


要 指定 一 


单 击 鼠标 右键 ， 选 择 Run 运行 决策 树 模型 。 从 决策 树 运 行 窗口 中 显示 的 信息 可 以 看 昌 
10-44 所 示 。 


Leaves 对 对 应 的 值 为 3 
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p 值 调整 方法 的 选择 。 如 果 既 没有 选择 x 检验 也 没有 选择 F 检 验 ， 就 需 
方法 调整 p 值 。 


， 表 示 此 决策 树 的 高 度 为 3 层 ， 如 图 


LC 


Data ] Variables ] 


Observat ions 


[Kass e 
o 


Ed Depth 
LlEffective number of inputs: 12 


Tree: Hodel Untitled -loj x] 


Model assessment measure: | Automat ic "| 
Sub-tree:|Best assessment value x| iBiVesl 1 


Maximum tries in an exhaustive split search: 5000 


P-value adjustment 


Basic Advanced | Score | Notes | 


sufficient for split search: 3576 


Apply Kass before choosing number of branches 
Apply Kass after choosing number of branches 


图 10-43 ”决策 树 Variables 项 设置 显示 


Results - Tree 


Model All ] Summary | Tree Ring | Table ] Plot | Score | Log | Notes | 


SOURCE | STAT | G00D_BAD_CUSTER | 4 


inl xl 


Leaves 


Training 


Validation 4| 0,224 


单 击 SAS 菜单 的 “查看 ”， 


策 树 的 高 度 和 叶 节 点 显示 信息 。 此 决策 树 的 树 状 结构 图 显示 了 树 的 高 度 为 3 层 ， 对 于 训练 集 


1 0. 1969 0. 2240 


2 D. 1345 D. 1451 0.105 
3 0. 1337 0. 1376 
4 0. 1133 0. 1334 


0.1124 


0.1258 Y Number of Leaves 


图 10-44 Results-Tree 窗口 


在 弹出 的 下 拉 菜 单 中 选择 “ 树 状 结构 〈T) ”， 可 以 看 到 决 


的 观测 "Total 显示 总 观测 记录 为 3576 位 信贷 客户 。Good bad custer 为 1 的 叶 节点 显示 违约 信 
贷 客 户 的 训练 数据 集 记 录 为 704 位 客户 ; Good bad custer 为 0 的 叶 节点 显示 无 违约 信贷 客户 


的 训练 数据 集 记 录 为 2872 位 客户 


。 决 策 树 还 显示 了 训练 数据 集 的 无 违约 信贷 客户 与 违约 信贷 


客户 占 的 百分比 ， 同 时 根据 每 一 个 变量 的 信息 米 ， 也 就 是 页 献 度 进行 对 树 分 类 ， 如 图 10-45 


Bras. 
树 图 包含 下 列 项 目 : 
根 节 点 


树 中 包含 所 有 案件 的 顶部 节点 。 


内 部 节点 一 一 非 终 结 节 点 (也 包括 根 节 点 )， 其 中 包含 分 裂 规 则 。 


叶 节 点 一 一 终端 节点 包含 一 引 


可 以 使 用 滚动 条 来 显示 其 他 


日 观察 的 最 终 分 类 。 


节点 。 预 期 损失 值 用 于 递归 分 区 同 质 群体 中 的 数据 。 
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Tree: Tree Diagram from Hode ID=1, 3 Depth Down -ioj xj 
0 
1 
0 2872 
1 704 
Total 3576 
«43. gero] = 43 gero] 
0 33.73 91.0 [] 36.01 33.0 
ü 6.3% — 8.0 1 83.23 67.0 
0 2562 83. 0 1 91 
171 82 1 533 185 
Total | 2733 316] Total 843 276] 
CURR DYGJ TQBANK ED 
& 23a] >= 23334 «0.50 = 0.50 
0 42.93 — 20.0. 0 94.13 32.2 0 41.23 45.3 0 .9% — 9.5 
1 57.1% 80.0 1 5:0 7. 1 52.8% — 54.7 1 82.13 — 30.5 
0 9 3 0 2553 831 0 256 82 0 54 3 
1 12 12] 1 153 70 1 286 33 1 247 86] 
Total 21 15] Total | 2712 301 Total 542 181 Total 1 35) 
TQBANK ED Tg MONTHS 
<s.50] 三 55 « 188] = 169] 
0 94.93. 92.44 [0 0.0% 0.00 [0 34.53 35.8% [0 69.0% — 53.7 
1 5.73 7.8; 1 100.0% 100.0. 1 85.53 — 64.2 1 31.08 — 40.3 
0 255 831 [0 0 0o 118 39 | 10 138 43 
1 153 esf | 1 6 AM 224 30] | 1 62 29 
Total 2706 833] | Total 2] L Total 342 103] | Total 200 22] 


图 10-45 树 分 类 显示 信息 


当 使 用 的 损失 评估 标准 建立 树 ， 每 一 个 节点 行 包含 下 列 数据 : 


第 一 行列 出 了 在 
第 二 行列 出 了 在 


| 练 数 据 集 和 检验 数据 集 的 无 违约 信贷 客户 的 百分比 。 
| 练 数 据 集 和 检验 数据 集 的 违约 信贷 客户 百分比 。 


第 三 行列 
列 
第 五 行列 


第 四 行 


出 了 训练 数据 集 和 检验 数据 集 的 无 违约 信 
出 了 训练 数据 集 和 检验 数据 集 的 违约 信贷 客户 的 数目 。 


贷 客户 的 数 


目 


出 了 训练 数据 集 和 检验 数据 集 的 信贷 客户 各 自 对 应 的 总 观测 数 。 


关闭 决策 树 运 行 显示 的 信息 窗口 ， 下 


日 


面 将 要 进行 模型 评估 。 


(9) 对 回 


为 检验 两 个 模型 哪个 模型 最 优 ， 可 以 通过 SAS/EM 的 模型 记 


归 模 型 和 决策 树 模 型 建立 模型 评估 


FE 估 控件 进行 比 对 。 


1) 将 Assess GEMT) +H 
Assessment 放 至 


的 子 控 件 节点 Assessment 拖 动 到 流程 图 工作 


x ， 把 控件 


| Tree 节点 下 面 , 然后 分 别 把 鼠标 放 到 Tree 节点 和 Regression 上 ， 当 光标 变 成 


“+” 形 状 时 按 住 鼠 标 左 键 画 线 到 “Assessment” 节 点 ， 这 样 就 建立 了 决策 树 节点 和 回 


归 节 点 


到 模型 评价 节点 的 连接 ， 妇 
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图 10-46 所 示 。 


Replacement 


Regression 


评价 节点 Assessment 


2) 双击 Assessment 节点 打开 Assessment Tool 窗 
Regression 和 Tree， 如 图 


10-47 所 示 。 


口 ， 此 窗口 显示 评价 的 两 个 模型 为 


: Assessment Tool -loj x| 
Models | Ort ions | Reporta | Dutput | 
Tool | Hame Description Target | Target Event al 
Regression stepwise credit risk regression stepwise  GÜOD BAD CUSTER 1 
Tree Untitled Tree GOOD BAD CUSTER 1 


3) 单 击 鼠 标 右键 ， 在 弹出 的 窗 
结果 ， 单 击 “ 是 ”按钮 ， 在 出 现 的 窗 
然后 选择 荣 单 栏 上 的 “了 


图 10-47 Assessment Tool 窗口 


选择 Run 运行 此 评价 控件 。 在 弹出 的 窗口 询问 是 否 浏览 


[ 具 ”， 在 弹出 的 窗口 选择 “升降 图 


按 住 〈shift〉 键 ， 选 择 Regression 和 Tree 两 个 模型 ， 
”， 评 价 控件 运行 后 的 升降 图 显 


示 了 模型 比 对 ，Cuumulative 表示 显示 的 为 积累 升降 图 。 评 价 控件 中 的 每 一 个 模型 都 给 信贷 客 


J” Good bad custer 打 一 个 分 值 ， 分 数 从 高 到 低 排列 ， 分 为 10 份 。 纵 轴 表 示 响 应 率 ， 横 轴 表 


示 分 值 。 对 于 回归 模型 ， 信 贷 客户 在 前 10% 的 银行 对 信贷 客户 违约 响应 率 为 70% 左 右 ; 对 于 
决策 树 模 型 ， 信 贷 客 户 在 前 10% 的 银行 对 信贷 客户 违约 响应 率 为 90%。 但 当 信 贷 客 户 在 90% 


时 ， 可 以 看 出 回归 模型 对 二 值 响应 率 更 高 ， 如 医 


10-48 所 示 。 


Assessment 节点 下 面 


:Lift Chart - [nl x| 
„Vertical HX1S Ualue 
€ Response 二 
© XCaptured Response 
OLift Value 80 
OProf it 
ROI TO 
& Cumulative 
© Non-Cumulat ive 
L mm] 
.Bar Color for 
20 40 60 80 100 
Target Profile Sinio 
Ern ion Tool Name 
em Dkr: Tree | 


图 10-48 Lift Chart 窗口 


(100 模型 应 用 
为 把 模型 应 用 到 原始 数据 集 ， 


数据 集 。 


这 里 引入 打分 模型 ， 然 后 通过 打分 模型 把 模型 应 用 到 所 有 


1) 将 Scoring GTO 控件 的 子 控件 节点 Score 拖 动 到 流程 图 工作 区 ， 把 控件 放 到 


， 然 后 把 鼠标 放 到 Assessment 节点 上 ， 当 光标 变 成 “+” 形 时 按 住 鼠标 
左 键 画 线 到 Score 节点 ， 这 样 就 建立 了 评价 节点 和 打分 节点 的 连接 ， 如 图 


10-49 所 示 。 
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ILT 


E Score 节点 打开 Score 窗 


OHS. | 
PREDITRISK Tem 


Replacement ^ Rezression 


图 10-49  socre 节点 


, 本 实验 选中 Apply training data score code to score data set 
单 选 按钮 ， 把 训练 数据 得 分 应 用 到 源 数据 集 ， 如 图 10-50 所 示 。 


Data ] Variables Settings | Score code | Lor] Notes | 


Perform this action when the path is run 


© Inactive 

& Apply training data score code to score data set 
O Accumulate data sets by type 

OMerze data sets by type 


PISIS 


Dutput variables 


General 


ERI 


10-50 Score 选项 设置 


2) 引入 源 数据 集 。 

源 数据 集 引 入 到 打分 节点 ， 通 过 打分 节点 引入 的 模型 应 用 到 源 数据 集 所 有 数据 。 

将 Sample〈 抽 样 ) 控件 的 子 控件 节点 Input Data Source 拖 动 到 流程 图 工作 区 ， 把 控件 放 
到 Score 节点 左 侧 ， 然 后 把 鼠标 放 到 Input Data Source 节点 上 ， 当 光标 变 成 “+” 形 时 按 住 
鼠标 左 键 画 线 到 Score 节点 ， 这 样 就 建立 了 输入 数据 源 节点 到 打分 节点 的 连接 ， 如 图 10-51 
所 示 。 
双击 Input Data Source 节点 打开 Input Data Source 窗口 ， 对 Input Data Source 窗口 中 的 
Role 进行 设置 ， 从 下 拉 列 表 中 选择 SCORE， 打 分 应 用 源 数据 ， 如 图 10-52 所 示 。 
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本 


Data | Variables | Interval Yariables ] Class Variables ] Notes | 


Source Data: |QHSJ.CREDITRISK Select... | 


Output: EMDATA. VIEW_EQA 
Description: |QHSJ.CREDITRISK 


Assesksment Role: SCORE | Metadata sample. ——. ~ 
Rows: 5,960 Size: 2,000 Change... 


Replacement Regression 


Columns: 13 Mame:  — EMPROJ.SMP VIKB 


DHSJ. Score 
CREDITRISK [Apply] 


图 10-51 引入 源 数 据 集 到 模型 应 用 图 10-52 Input Data Source 节点 设置 


(11) 信贷 客户 分 布 查看 

对 建立 好 的 模型 通过 Explore 中 的 Distribution Explorer 子 节点 可 以 查看 结果 。 

将 Explore〈 探 测 ) 控件 的 子 控件 节点 Distribution Explorer 拖 动 到 流程 图 工作 区 ， 把 控件 放 
到 Score 节点 下 面 ， 然 后 把 鼠标 放 到 Score 节点 上 ， 当 光标 变 成 “+” 形 状 时 按 住 鼠 标 左 键 画 线 
到 Distribution Explorer 节点 ， 这 样 就 建立 了 打分 节点 到 探测 节点 的 连接 ， 如 图 10-53 所 示 。 


QHSJ. 
CREDITRISK 
Mssesisment 


Replacement ^ Regression 


DHSJ. 
CREDITRISK 


Distribution 
Explorer 


10-53 Distribution Explorer 节点 


【注意 】 在 运行 Distribution Explorer 节点 前 先 运行 Score 节点 。 

单 击 鼠 标 右键 ， 选 择 Run 运行 ， 在 弹出 的 询问 是 否 查看 结果 窗口 中 单 击 “ 是 ”按钮 ， 选 
FE SAS 菜单 中 的 “查看 ”， 在 弹出 的 子 菜单 中 选择 “透视 ”， 然 后 在 弹出 的 菜单 中 选择 “3D 
视图 ”， 此 图 显示 了 因 变 量 Good_bad_custer 的 百分比 ， 违 约 信贷 客户 占 比 为 19.3， 结 果 显 示 
如 图 10-54 所 示 。 
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Ha 


Chart | Code ] Log ] Dutput ] Notes | 


Percentage 


0 1 
GOOD BAD CUSTER 


Percentage 


图 10-54 ”透视 图 


通过 运行 SAS/EM 工具 ， 查 看 运行 报告 ， 进 行 分 析 ， 得 出 如 下 评价 和 分 析 : 

本 实验 通过 回归 模型 中 的 逻辑 回归 和 决策 树 模 型 的 应 用 挖掘 出 了 信贷 客 户 的 违约 客户 和 
无 违约 客户 ， 满 足 了 信贷 客户 模型 的 需求 。 通 过 对 比 模型 可 以 发 现 逻 辑 回 归 在 二 分 类 目标 变 
量 是 最 适合 的 ， 防 止 了 过 度 拟 合 ， 同 时 将 信贷 客户 根据 评分 总 值 和 阔 值 进行 比 对 ， 来 判断 哪 
个 客户 是 违约 信贷 客户 ， 哪 个 客户 是 无 违约 信贷 客户 。 根 据 数据 挖掘 分 析 来 控制 某 一 个 信贷 
变量 或 几 个 信贷 变量 ， 减 少 信贷 违约 客户 ， 尽 可 能 地 降低 信贷 客户 违约 风险 。 
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第 11 章 ”SAS 模型 开发 案例 


随 着 计算 机 和 互联 网 技术 的 快速 发 展 和 广泛 应 用 ， 我 们 的 社会 正在 经 历 一 场 数字 化 和 信 
息 化 的 变革 ， 各 种 信息 采集 终端 的 出 现 ， 使 得 信息 的 获取 变 得 更 加 容易 ， 从 日 常 的 数字 和 影 
像 采集 设备 ， 到 企业 高 速 膨胀 的 数据 仓库 ， 数 据 的 积累 为 基于 数据 的 科学 决策 提供 了 可 能 性 。 
同样 ， 日 益 激 烈 的 市 场 竞争 ， 要 求 企业 改变 传统 的 基于 经 验 的 粗放 简单 的 决策 方式 ， 代 之 以 
精确 的 客户 关系 管理 方法 ， 从 而 降低 经 营 成 本 ， 保 持 竞 争 力 。 另 外 ， 伴 随 着 社会 全 面 的 信息 
化 过 程 ， 云 计算 及 移动 智能 终端 的 广泛 应 用 ， 势 必 带 来 数据 的 全 面 融 合 ， 引 发 新 一 轮 智 能 化 
的 浪潮 。 智 能 化 作为 一 个 数据 信息 应 用 的 系统 化 过 程 ， 涉 及 数据 信息 的 获取 、 共 享 、 整 合 、 
分 析 、 建 模 和 分 发 等 方面 ， 而 在 这 之 中 ， 数 据 模型 的 开发 将 会 作为 整个 智能 化 的 中 枢 ， 变 得 
益 重 要 ， 如 图 11-1 所 示 。 


数字 化 时 代 
数据 量化 


amb 


智能 化 时 代 
自主 决策 


11.1 数据 挖掘 建 模 概述 


11.1.1 数据 挖掘 层级 


基于 企业 对 数据 的 使 用 需求 情况 ， 数 据 挖掘 层级 可 以 分 为 以 下 4 个 层级 ， 即 报表 级 应 用 、 
分 析 级 应 用 、 模 型 级 应 用 和 智能 决策 系统 。 

(1) 报表 级 应 用 

报表 级 应 用 的 重点 是 回顾 历史 。 它 主要 是 利用 数据 对 企业 的 经 营 历史 进行 回顾 和 总 结 ， 
并 且 定 期 或 不 定期 生成 报表 。 通 过 这 些 报表 可 以 回答 某 段 时 间 内 某 个 领域 发 生 了 什么 事情 ， 
有 多 少 次 、 多 大 数量 等 问题 。 同 时 这 些 报表 兼 具 一 定 的 查询 功能 。 报 表 级 应 用 可 以 进一步 
分 为 常规 报表 BD 和 即席 查询 两 部 分 。 

(2) 分 析 级 应 用 

分 析 级 应 用 的 重点 是 关注 现在 。 它 主要 是 根据 业务 需要 ， 对 数据 从 不 同 维度 进行 展开 和 
比较 ， 可 通过 一 些 复杂 的 分 析 〈 频 次 分 析 、 相 关 分 析 等 ) 发 现 问题 出 现 的 原因 ， 并 可 以 根据 
业务 需求 设 定 一 定 的 警戒 值 ， 起 到 提醒 和 警示 作用 。 报 表 级 应 用 可 以 进一步 细 分 为 多 维 分 析 
(OLAP)、 预 警 提 醒 和 统计 分 析 。 

(3) 模型 级 应 用 

模型 级 应 用 的 重点 是 预测 未 来 。 它 主要 是 基于 历史 数据 ， 开 发 各 种 预测 模型 ， 对 客户 和 
业务 的 未 来 发 展 作出 预测 ， 进 一 步 设 计 和 优化 策略 方案 ， 实 现 企 业 未 来 效益 的 最 优化 。 模 型 
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级 应 用 可 以 进一步 细 分 为 预测 建 模 和 策略 设计 优化 。 


(4) 智能 决策 系统 
智能 决策 系统 的 重点 是 决策 实施 。 它 3 
时 准确 地 分 发 到 业务 前 站 
以 进一步 细 分 为 策略 部 署 和 跟踪 报表 。 


i 供 业 务 人 员 使 用 ， 


11.1.2 ”挖掘 建 模 概念 


数据 挖掘 建 模 就 是 通过 模型 开发 的 方法 ， 从 海量 的 数据 


同时 收集 3 


要 是 指 将 基于 各 种 预测 模型 得 到 的 策略 结果 ， 及 


跟踪 模型 执行 结果 。 智 能 决策 系统 可 


FP 第 选 出 有 用 的 信息 和 规律 ， 以 


实现 对 目标 的 准确 刻画 。 数 据 模型 作为 对 现实 世界 的 抽象 ,通过 一 系列 科学 标准 的 建 模 过 程 ， 


可 以 有 效 地 对 数据 特征 i 
电子 商务 、 电 信 等 行业 
的 模型 不 一 定 是 最 好 的 ， 特 别 是 
对 成 熟 的 建 模 方法 ， 建 模 的 过 程 更 力 
的 模型 往往 会 有 失 偏 颇 。 

数据 模型 开发 的 哲学 基 而 
在 某 种 程度 上 ， 这 种 规 和 
们 的 社会 和 经 济 活动 则 是 这 些 思 维 活动 的 衍生 。 历 史 的 可 重复 ' 
可 能 ， 并 保证 了 其 在 未 来 一 段 时 间 内 上 
往往 会 强烈 影响 这 个 基础 ， 因 此 数据 模型 
入 分 析 ， 对 于 茶 些 重复 性 


， 其 中 在 信用 卡 行 
昌 于 企业 对 于 风险 的 敏 


IAS A 


0 强调 


是 历史 的 可 和 


HORE 
感 


TUA 9 


E 复 性 ， 即 认为 事 伯 


LE 主 要 源 于 人 们 的 思维 方式 和 行为 习惯 帮 


性 。 对 于 商业 应 月 
现实 中 多 采 月 


行 抽象 ， 获 取 关 键 信息 和 指标 。 目 前 ， 数 据 模型 广泛 应 用 于 金融 、 


JAAN 


间 ， 可 能 由 于 环境 的 改变 ， 模 型 的 性 能 会 


发 新 的 模型 。 


不 同 于 工程 领 : 


成 的 仿真 模型 以 精确 


现 对 客户 在 统计 层面 的 区 分 情况 ， 即 排序 性 。 强 调 排 


E， 然 而 社会 的 


mt 


不 是 万 能 的 ， 在 开发 之 前 需要 对 应 
FE 欠 缺 的 领域 应 该 寻求 其 他 的 解决 方案 。 男 外 ， 模 型 开发 实施 一 段 时 
逐渐 发 生 改变 ， 此 时 便 需 要 重新 评估 校准 ， 甚 至 开 


性 作为 目的 ， 商 业 领 域 所 用 至 


e 


E 


AC 


[t 


而 言 ， 最 复杂 
经 过 时 间 考 验 的 相 
上 上 务 和 模型 有 效 融 合 ， 因 此 脱离 对 业务 的 理解 开发 


F 存 在 内 在 的 相对 稳定 的 规律 。 
E 某 一 时 期 内 的 稳 
生 使 得 商业 模型 的 开发 成 为 了 
快速 发 展 和 一 些 突 发 事 人 


生 ， 而 人 


F 的 发 生 ， 


场景 ; 


行 深 


行 层面 来 看 ， 模 型 使 用 的 最 终 目 


是 因为 在 社会 学 领 : 


成 影响 某 一 事件 的 因素 往往 是 非常 
是 徒劳 的 ， 较 之 某 一 目标 的 绝对 值 分 布 ， 相 对 分 布 和 


的 营销 策略 和 管理 


务 的 需要 。 


方案 。 因此 ， 权衡 来 看 


11.1.3 ”模型 开发 平台 建设 


对 一 个 企业 而 言 ， 基 于 数 
个 模型 的 问题 ， 它 同时 还 包括 前 端的 数据 准备 阶段 、 后 端的 策略 开发 和 


数据 分 析 系 统 建设 应 包含 3 部 分 :数据 分 析 集 
部 分 又 细 分 为 开发 数据 准备 、 评 分 卡 模型 
才能 实现 从 数据 到 决策 的 
(1) 数据 分 析 集 市 建设 


数据 分 析 集 市 


的 建设 主要 是 


取 、 数 据 清洗 整理 
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f 


FE 往 表现 得 更 


杂 的 , 要 想 精确 地 奖 


E 并 不 是 认为 精确 性 不 


I 的 数学 模型 更 多 地 体 


RE, lE 


| iti 


为 稳定 。 另 儿 


的 智能 化 决策 应 用 是 一 个 系统 化 的 工程 ， 


件 事 往往 
， 从 】 


EE 


的 通常 是 实现 对 客户 群 的 细 分 ， 对 不 同 的 细 分 群 使 
一 个 排序 性 很 好 | 


不同 


的 模型 往往 更 加 现实 并 能 满足 业 


不 仅仅 是 开发 几 
自动 分 发 部 署 阶段 。 
建设 、 模 型 开发 和 策略 部 署 。 其 中 模型 开发 


发 和 策略 设计 3 部 分 。 只 有 这 些 部 分 有 机 地 组 合 ， 


自主 和 高 效 。 数 据 决 策 平台 如 


Z 


11-2 所 示 。 


分 为 以 下 几 


H 


RRITE H, 


以 为 模型 开发 和 策略 实施 提供 数据 支持 为 目的 ， 涉 及 数据 获 
为 层级 数据 集 市 建设 等 ， 通 常会 将 


As 
Ag p 


! py% 
Rikis, H 


图 11-2 数据 决策 平台 示意 图 


1) 源 数据 层 : 存储 管理 各 业务 系统 的 源 数 据 ， 保 证 数据 的 出 错 回 深 和 可 追溯 性 。 

2) 明细 层 : 存储 明细 数据 ， 对 各 数据 源 数据 进行 抽取 、 转 换 、 清 洗 和 加 载 ， 实 现 分 库存 
储 管理 。 

3) 主题 汇总 层 : 以 数据 主题 为 主线 ， 建 设 各 主题 数据 集 市 ， 明 确 各 集 市 的 主键 、 粒 度 和 
周期 ， 如 产品 主题 、 账 户主 题 和 客户 主题 等 。 

4) 周期 衍生 层 : 根据 业务 常用 周期 ， 如 分 析 层 的 账单 周期 、 报 表层 的 自然 月 周期 ， 对 常 
用 变量 进行 衔 生 ， 生 成 不 同 层级 (如 产品 、 账 户 、 客 户 等 层面 的 扁平 化 数据 集 。 

5) 业务 接口 层 : 为 各 业务 策略 实施 提供 接口 数据 。 

分 析 型 数据 集 市 建设 的 要 求 : 结构 清晰 、 高 效 稳定 、 易 于 维护 和 便于 扩展 。 

分 析 型 数据 集 市 建设 涉及 的 SAS 技术 难点 有 以 下 几 个 方面 : 

1) 大 数据 的 存储 和 访问 效率 。 

2) 流水 表 和 状态 表 存 储 结构 设计 与 读 取 

3) 任务 调度 方案 优化 。 

4) 灵活 高 效 的 错误 回 深 机 制 。 

5) 大 数据 量 表 的 拼接 和 快速 检索 技术 。 

6) Excel 和 TXT 等 外 部 数据 的 批量 导入 等 问题 。 

(2) 评分 卡 模型 开发 

目前 ， 客 户 关系 管理 模型 中 以 评分 卡 模型 最 为 常用 。 它 根据 客户 各 特征 变量 的 取 值 ， 对 
客户 赋 以 一 定 的 分 值 ， 然 后 将 各 模型 变量 分 值 累加 作为 客户 的 整体 评分 ， 通 过 该 分 值 来 反映 
客户 是 好 客户 和 坏 客户 的 概率 。 
模型 开发 主要 可 以 分 为 以 下 三 大 部 分 : 

D 抽样 及 变量 筛选 。 这 是 模型 开发 的 样本 数据 准备 阶段 。 首 先 确 定 观 察 窗 口 〈 自 变量 取 
值 ) 和 表现 窗口 ( 因 变 量 取 值 )， 进 行 好 坏 定义 ; 然后 对 观察 窗口 数据 进行 变量 准备 和 变量 入 
生 ， 并 根据 观察 窗口 数据 进行 好 坏 标识 ， 实 现 数据 的 扁平 化 工作 ; 接 下 来 结合 业务 分 析 设 置 
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M 


效率 。 


变量 条 件 并 进行 变量 粗 分 组 和 WOE 值 计 算 ， 最 后 将 样本 拆 分 成 训练 集 和 测试 集 ， 并 进行 探 
索性 数据 分 析 。 数 据 准备 阶段 的 工作 量 占据 了 整个 模型 开发 工作 量 的 一 半 以 上 ， 数 据 变 量 的 
定义 是 否 和 业务 吻合 ， 以 及 变量 衍生 是 否 充分 都 直接 影响 后 续 模 型 开发 的 成 败 。 

2) 评分 卡 模型 开发 ， 通 常 多 采用 SAS logistic 回归 ， 用 stepwise 方法 进行 变量 逐步 筛选 ， 
并 根据 结果 返回 去 对 粗 分 组 等 进行 调整 。 模 型 生成 之 后 ， 需 要 进行 分 数 转换 形成 评分 卡 ， 用 
测试 集 对 模型 效果 进行 评判 ， 最 后 是 模型 报表 和 跟踪 监控 。 

3) 策略 设计 和 优化 。 根 据 业 务 需要 设 定 截至 分 数 线 ， 并 结合 其 他 变量 和 模型 结果 设计 冠 
军 和 挑战 者 策略 ， 开 发 跟踪 报表 监控 模型 应 用 效果 。 

(3) 策略 实施 

策略 实施 主要 的 工作 是 将 结果 及 时 地 分 发 到 业务 段 。 根 据 业 务 的 使 用 情况 ， 常 用 的 更 新 
周期 有 每 月 更 新 策略 〈 如 收益 类 模型 )，T+1 更 新 策略 〈 如 客户 营销 模型 ) 和 有 交易 等 触发 条 
件 更 新 的 策略 〈 如 交易 监控 模型 )。 策 略 实施 最 重要 的 是 时 效 性 和 自动 化 流程 管理 。 

对 于 基于 评分 卡 模型 的 策略 ， 通 常 以 策略 树 的 形式 出 现 ， 即 根据 不 同 的 策略 变量 的 取 值 
区 间 ， 划 分 不 同 的 策略 分 支 ， 最 终 根 据 这 样 一 系列 变量 将 客户 分 发 到 一 定 的 业务 场景 。 策 略 
树 的 部 署 在 SAS 中 通常 是 使 用 FORMAT 过 程 或 HASH 对 象 构造 条 件 映 射 ， 然 后 将 客户 变量 
取 值 映射 到 一 定 的 区 间 。 另 外 ， 也 可 以 使 用 正 条 件 语句 和 区 间 压 缩 的 方法 进行 部 署 。 


11.2 ”数据 挖掘 建 模 理论 


11.2.1 数据 挖掘 建 模 分 类 


数据 挖掘 模型 开发 的 思想 基础 是 经 验 的 可 重 现 ， 即 通过 对 历史 上 的 样本 数据 集 进行 模型 
训练 获得 模型 函数 ， 然 后 对 新 样本 进行 预测 ， 通 常 都 是 基于 历史 学 习 的 判别 分 类 方法 。 

常见 的 分 类 模型 有 判别 分 析 法 、 回 归 分 析 法 、 决 策 树 方法 、 数 学 规划 方法 、 神 经 网 络 方 
法 、 最 近邻 方法 和 组 合 预测 方法 等 。 其 中 判别 分 析 法 和 回归 分 析 法 最 终 主 要 生成 一 个 评分 卡 ， 
依据 分 值 对 客户 进行 排序 分 类 ， 其 他 一 些 模型 虽然 并 不 生成 一 个 评分 卡 ， 但 共同 之 处 都 是 对 
客户 进行 细 分 。 在 商业 应 用 中 常用 到 的 是 基于 贝 叶 斯 定律 的 Logistic 回归 方法 。 

1. 判别 分 析 法 〈Discriminant Analysis? 

判别 分 析 是 利用 已 知 类 别 的 样本 培训 模型 ， 为 未 知 样本 判 类 的 一 种 多 元 统计 分 析 方 法 。 
其 特点 是 根据 已 掌握 的 历史 上 每 个 类 别 的 若干 样本 的 数据 信息 , 总 结 出 客观 事物 分 类 的 规律 ， 
建立 判别 公式 和 判别 准则 。 当 遇 到 新 的 样本 点 时 ， 只 要 根据 总 结 出 来 的 判别 公式 和 判别 准则 ， 
就 能 判别 出 样本 点 所 属 的 类 别 。 

判别 分 析 的 步骤 如 下 : 

1) 根据 研究 目的 确定 研究 对 象 〈 样 本 ) 及 所 用 指标 。 

2) 收集 数据 ， 得 到 训练 样本 。 

3) 用 判别 分 析 法 求 得 判别 函数 。 

4) 评估 判别 函数 是 否 具 有 使 用 价值 。 

5) 根据 判别 函数 建立 判别 准则 ， 对 未 知 样本 判别 归 类 。 

(1) Bayes 判别 法 (Bayes Discriminant) 
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Bayes 六 


的 概率 型 判别 分 析 。 它 的 
后 验 概 率 作出 判别 。 


到 后 验 概率 *， 由 


I 别 是 一 


种 基于 Bayes 


公式 


P(BIA)-P(A|B)P(B)/P(A) 


基本 思 


协 方差 矩阵 相等 。 在 实际 消费 信用 数据 中 ， 


和 批评 的 主要 原因 。 


Bayes 判别 过 


考察 客户 历史 样本 数据 集 ， 


集 记录 了 样 
S 一 一 客户 


程 如 下 : 


G 一 一 好 客户 字 总 体 。 
B 一 一 坏 客户 子 总 体 。 


根据 对 S 数 据 集 
到 以 下 先 验 概率 和 先 验 条 件 


从 而 得 
P(G) 一 一 好 


PE) 一 一 坏 客户 出 现 的 
P(x|G) 一 一 特征 值 x 的 好 客户 的 
P(x|B) 一 一 fi 
新 样本 数据 集 是 需要 预测 的 样本 集 ， 客 户 是 “好 ”客户 或 “ 坏 ” 客 户 未 知 ， 是 
变量 的 特征 变量 的 特 生 


预测 的 因 


X=(X1, Xon, 


X=(X1, X2, ***, 


从 Bayes 


变量 ， 作 为 自 
S' 一 一 客户 历史 样本 数据 集 。 
Xa) 一 一 特征 变革 


的 分 析 , 可 以 得 


想 是 假设 已 知 对 象 的 9 
它 SORTEO 


这 些 条 件 往 和 


E 验 概率 和 先 验 条 件 概率 ， 而 后 得 
EF 变量 服从 多 元 正 态 
主 不 易 满足 ， 


分 布 5， 且 两 类 子 总 体 的 
这 是 判别 分 析 引 起 质疑 


存在 两 个 子 总 体 “ 好 ”客户 (GO 和 “ 坏 ” 客 户 B), Hs 
本 的 各 特征 变量 的 特征 值 及 所 属 的 子 总 体 。 
历史 样本 数据 集 。 


到 好 坏 客 户 的 比例 , 以 及 好 客户 和 坏 客 户 的 特征 变量 分 布 ， 


概率 


客户 出 现 的 先 验 概率 。 


Ef x 的 坏 客户 


CRK. 


E 验 条 件 概 率 。 


的 先 验 条 件 概 率 。 


正 值 分 布 已 知 。 


量 , 大 写 X 代 


变量 
=Œ o 


特征 值 ， 


Xn) 


小 写 


P(G/x)-P(x|G)P(G) 
-P(G)- P(xi]G): P(xI(Gxi)): ** 


O 先 验 概率 (Prior Probability) 是 根据 以 往 经 验 和 分 析 得 到 的 概率 。 利 


PCxn|(Gxl… 


缀 代表 变量 取 值 。 
根据 历史 样本 数据 集 对 新 数据 集 进行 分 类 ， 可 以 采用 Bayes 7 
史 数 据 集 归纳 到 的 先 验 概率 PG PEA 


;Xn-1)) 


过 去 的 历史 资料 计算 


要 进行 


站 别 分 析 的 方法 ， 即 通过 历 
验 条 件 概率 P(x|G)、P(x|G) 求 后 难 
公式 P(B|A)=P(A|B)P(B)P(A) 出 发 ， 


仿 概 率 的 问题 。 


得 到 的 先 验 概率 ， 称 为 客观 先 验 概率 ; 


当 历史 资料 无 从 取得 或 资料 不 完全 时 ， 任 人们 的 主观 经 验 来 判断 而 得 到 的 先 验 概率 称 为 主观 先 验 概率 。 例 如 ， 某 事件 y 的 发 生 受 
Xp t XS 因素 影响 (y=f(x1，…，xn))， 根 据 历史 样本 可 以 得 到 在 y 事件 发 生 的 概率 〈 先 验 概率 )， 以 及 y 各 种 取 值 情况 的 xi，…， 
xn 出 现 的 概率 〈 先 验 条 件 概率 )， 即 先 验 概率 。 而 对 新 样本 ， 当 某 个 因素 x 出 现时 ， 此 时 判断 y 发 生 的 概率 为 后 验 概率 。 

C 后 验 概率 (Posterior Probability) 是 指 在 得 到 某 些 信息 后 重新 修正 的 概率 ， 也 就 是 考虑 了 一 个 事实 之 后 的 条 件 概率 。 后 验 概率 可 
以 通过 贝 叶 斯 公式 ， 用 先 验 概率 和 似 然 函 数 计算 出 来 。 

© 正 态 分 布 (Normal Distribution〉 又 称 为 常态 分 布 或 高 斯 分 布 (Gaussian Distribution)， 若 随机 变量 X 服从 一 个 数学 期 望 为 n、 标 


BIERO MESA, BEEREN = o|- 
no 
分 布 的 幅度 ， 田 线 与 模 


对 称 ， 标 准 差 6 决定 J 
四 先 验 条 件 概率 前 


是 事件 A 在 另外 一 个 事件 B 


(x-y) 


20 


2 
o I7 
2 


间 的 面积 总 等 于 1。 通 常 所 说 的 标 
已 经 发 生 条 件 下 的 发 生 概率 ， 条 侍 


线 呈 钟 形 ， 


两 头 低 ， 中 间 高 ， 对 期 望 值 h 左 右 


准 正 态 分 布 是 n=0、o= 1 的 正 态 分 布 。 
概率 表示 为 P(A|B)。 


P(A|B) = P(ABJP(B) 
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先 验 概率 P(G) 已 知 ， 先 验 条 件 概 率 可 以 通过 客户 历史 样本 
以 想象 随 着 特征 变量 {Xi, 义 ,,，…, Xn} 的 个 数 n 的 增加 ， 每 个 特 行 


数据 集 的 分 布 计算 得 到 ， 但 可 


样 计算 工作 将 会 非常 繁琐 。 


Q2) 下 
Fisher 


isher 判别 法 (Fisher Discriminant) 


[变量 由 会 对 应 多 个 特征 值 ， 这 


判别 法 是 1936 年 提出 来 的 ， 该 方法 的 主要 思想 是 多 维 数值 到 一 维 数值 的 映射 降 维 


过 程 ， 即 将 多 维 数据 投影 到 茶 个 方向 上 。 投 影 的 原则 是 将 总 体 之 间 尽 可 能 地 分 开 ， 然 后 再 选 


择 合适 的 


X(X-x X», 
线性 函数 把 
的 杀 疏 程度 对 未 知 归 属 的 样本 点 判定 雪 
转化 为 一 维 数值 之 后 ， 既 能 最 大 限度 地 缩小 同类 中 各 个 村 


X— 


判别 规则 ， 将 新 样本 进行 分 类 判别 。 有 具体 来 说 ， 就 是 针对 P 维 空间 的 某 点 
…:Xp)， 寻 找 一 个 能 使 它 降 为 一 维 数值 的 线性 函数 YCO= > C, x Xi ， 然 后 应 用 这 个 
P 维 空间 中 的 已 知 类 别 总 体 及 未 知 类 别 归 属 的 样本 都 变换 为 一 维 数据 , 再 根据 其 间 
归属 。 这 个 线性 函数 应 该 能 够 在 把 P 维 空间 中 的 所 有 点 


本 点 之 间 的 差异 ， 又 能 最 大 限度 地 


扩大 不 同类 别 中 各 个 样本 点 之 间 的 差异 ， 这 样 才 可 能 获得 较 高 的 判别 效率 。 在 这 里 借用 了 
元 方差 分 析 的 思想 ， 即 依据 组 间 均 方差 与 组 内 均 方差 之 比 最 大 的 原则 来 进行 判别 。Fisher 判 别 


分 析 也 可 以 被 看 成 一 种 线性 回归 分 析 。 
(3) 距离 判别 法 (Distance Discriminant) 
距离 判别 的 思想 是 由 训练 样本 得 出 每 个 分 类 的 重心 坐标 ， 然 后 对 新 样品 求 出 它们 与 各 类 


IE OKE 


E 离 ， 从 而 将 其 归 入 离 得 最 近 的 分 类 。 最 常用 的 距离 是 马 氏 距离 9。 


变量 的 分 布 类 型 无 严格 要 求 ， 特 别 是 并 不 严格 要 求 总 体 协 方差 


2. 回 


归 分 析 法 (Regression Analysis) 


距离 判别 的 特点 是 直观 、 简 单 ， 适 合 于 对 自 变量 均 为 连续 变量 的 情况 进行 分 类 ， 且 它 对 


和 矩阵 = 相 


回归 分 析 是 研究 一 个 随机 变量 Y 对 另 一 个 CO 或 一 组 (XI，X2，…， 


统计 分 析 方法 。 回 归 的 意义 是 ， 认 为 变量 之 间 存 在 着 某 种 天 然 的 依存 关系 ， 这 种 关系 可 以 用 
一 个 线性 或 非 线性 的 函数 表示 回归 的 过 程 就 是 对 这 个 函数 的 逐步 逼近 和 发 现 的 过 程 。 


回归 分 析 的 步骤 如 下 : 
D 从 一 组 数据 出 发 确定 某 些 变量 之 间 的 定量 关系 式 ， 即 建立 数学 模型 并 估计 其 中 的 未 知 
参数 。 估 计 参 数 的 常用 方法 是 最 小 二 乘法 。 


2) 对 


^ 
sF o 


Xk) 变量 的 相依 关系 的 


这 些 关系 式 的 可 信 程 度 进行 检验 。 


3) 在 


的 变量 ， 通 常用 逐步 回归 、 向 前 回归 和 向 后 回归 等 方法 。 


4) 利 


(1) 线性 回归 方法 CLinear Regression) 


j 所 求 的 关系 式 对 某 一 生产 过 程 进 行 预测 或 控制 。 


在 回归 分 析 中 ， 若 事先 假定 数据 之 间 满 足 线性 关系 ， 可 以 
f (X1……Xn ) =Au+AIXI+A2?X? 十 …T+TAXn 


许多 自 变量 共同 影响 着 一 个 因 变 量 的 关系 中 ， 判 断 哪个 〈 或 哪些 ) 自 变 量 的 影响 是 
显著 的 ， 哪 些 自 变量 的 影响 是 不 显著 的 ， 将 影响 显著 的 自 变 量 选 入 模型 中 ， 吻 除 影响 不 显著 


用 线性 函数 


O 马 氏 距 离 是 由 印度 统计 学 家 马 哈 拉 诺 比 斯 (P. C. Mahalanobis) 提出 的 ， 表 示 数 据 的 协 方差 距离 。 它 是 一 种 有 效 的 计算 两 个 未 


重 的 信息 ， 


知 样本 集 的 相似 度 的 方法 。 与 欧 氏 距离 不 同 的 是 它 考 虑 到 各 种 特性 之 间 的 联系 〈 例 刀 


0， 一 条 关于 


姑 为 两 者 是 有 关联 的 ) ， 并 且 是 尺度 无 关 的 (scale-invariant) ， 即 独立 了 


O 协 方差 矩阵 的 第 I、j 项 为 Cov (Xi,X;) =E[CX-nD)CS-b)]。 
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F 测量 尺度 。 


F 身 高 的 信息 会 带 来 一 条 关于 体 


表示 ， 则 该 回归 模型 称 为 线 
普通 的 线性 回归 


回归 。 


RÉI 
A 


H 


是 线性 回归 方法 用 于 信用 评分 时 存在 明显 他 


被 用 于 解决 信用 评分 中 的 分 类 问题 


其 产生 的 是 


ABA, BH 回归 方程 两 边 变 量 


个 线性 


右边 的 取 值 可 以 从 负 无 穷 到 正 无 穷 ， 但 
TE. A 


Z 


日 方程 
果 等 式 左 边 变换 成 p 的 一 个 函数 


的 左边 是 概率 变量 p， 
， 它 可 以 取 任 意 值 ， 则 模型 


线性 回归 进行 改进 而 形成 的 Logistic 回 
(2) Logistic |E]! 
Logistic 评分 模型 是 在 商业 领域 应 

面 综合 衡量 ，Logistic 模型 较 # 

在 Logistic 回归 中 ， 将 因 


D 


Log 函数 的 作用 主要 有 两 个 方面 ， 
关系 ， 其 次 将 概率 p 的 区 
类 的 ， 也 可 以 是 多 分 类 的 ， 但 是 


,车 


两 方 


Di 


广 间 [0,1] 映 射 到 [-<e,+ce]， 
类 的 更 为 常用 ， 信 用 记 


归 方 法 就 成 为 信用 订 
H (Logistic Regression) 
最 为 广泛 的 预测 模型 之 一 , 从 模型 的 解释 性 和 稳定 性 


评分 卡 。 但 


的 取 值 范围 可 能 不 一 致 : 
其 取 值 范围 只 能 在 (0，1) 
J 更 有 意义 。 于 是 ， 


对 


FE 分 模型 中 使 


经 网 络 和 决策 树 模 型 更 加 适度 和 均衡 。 


变量 概率 发 生 比 的 对 数 表示 成 特 和 


首先 将 因 


量 是 连续 的 情 ; 


况 通常 通过 一 定 的 方法 将 


转换 为 二 


H 


4 克服 了 线性 


口 


HEUS 


的 缺陷 ， 


Logistic 回归 模型 
企 背 景 而 言 ， 人 们 会 
s L 实 中 应 用 最 广 的 评分 模型 。 


论 


也 


jj 


认为 在 信用 评分 中 Logistic [9010 EG 2E: 


分 变量 


FH o 


回 


ma 


.决策 树 / 分 类 树 方法 Tun or Classification Trees) 


> s 树 方法 最 后 不 生成 一 


概率 尽量 相等 ， 而 违 的 概率 在 组 之 问 的 差异 则 尽 可 能 


之 间 存 在 相互 作用 的 情形 ， 即使 
Ab. 
FE 要 求 较 低 的 领域 。 


性 要 
而 使 得 在 这 


而 


分 类 树 方法 也 有 一 


FE 有些 特征 变量 
分 类 树 方法 可 以 通过 人 为 设置 节点 从 而 


文 些 节点 中 所 作 的 统计 推 昕 不 可 靠 


评分 卡 ， 而 是 将 消费 者 分 成 不 同 的 组 ， 


H Sk 


些 缺 陷 ， 


Ep 


实现 业务 经 
如 某 些 低 


4. 数学 规划 方法 (Mathematical Programming? 


数学 规划 方法 通过 研究 对 客户 信 
坏 两 类 ， 从 而 建立 一 个 线性 规划 方程 ， 


用 有 影响 的 各 个 


。 其 特点 
量 存在 一 定 的 数据 缺失 ， 
验 的 嵌入 ， 建 模 速度 快 ， 

点 所 包含 的 样本 可 能 


ah -H 


vi 


EH 


F 变 量 的 一 个 线性 
Je ^e +A,X, ++ A,X, 


变量 和 自 变量 之 间 的 非 线性 关系 变换 成 线性 
同等 式 右边 保持 一 致 。 因 
分 中 即 “ 好 ， 和 “ 坏 ，。 


iz 


因素 ; 


目的 即使 方 


绝 大 部 分 文献 认为 线 怕 


神经 网 络 是 一 种 模仿 人 脑 信 息 
自学 习 、 自 组 织 、 自 适应 等 能 力 ， 
件 。 该 方法 常 应 用 于 风险 管理 中 ， 
忍耐 能 

Chen 与 Titterington(1994) 认 为 ， 


FE 规划 方法 与 统计 
5. 神经 网 络 方法 (Neural Network) 
加 工 过 程 的 智能 化 信息 处 理 技术 


能 够 较 好 地 


E 法 效果 


相当 。 


程 误差 最 


确定 它们 的 权重 ， 


EEA 


小 。 


H 


” FN 


神经 网 


iz 


的 方法 2 


EHS, BI 


VES PEPA EHE WT DU 


变量 可 以 是 二 分 


对 于 因 变 


E 意 值 。 就 理 


生 回 归 更 合适 ， 而 Logistic 回 


在 组 内 各 样 
有 效 地 处 理 特 征 


归 模 型 


本 的 违约 
变量 


该 方法 也 能 适用 。 


有 大 规模 并 行 处 理 、 


能 独立 处 理 复杂 的 非 线性 问题 ， 不 限于 严格 的 前 提 假 设 条 


适合 精确 
从 


少 ， 


把 客户 分 为 好 、 
一 个 线性 


评分 卡 。 


络 方法 实际 上 可 以 看 做 一 种 非 线 怕 


忠实 于 客观 实际 ， 对 噪声 和 缺失 数据 有 较 强 的 


E [n] 该 方 


归 。 


法 可 能 存在 过 度 拟 合 的 问题 。 Davis(1992) 也 比较 过 神经 网 络 与 其 他 方法 , 认为 神经 网 络 能 很 


好 地 处 理 数据 结构 不 太 清楚 的 情况 , 但 其 训练 样本 时 间 较 长 。 此 外 ,其 可 解释 


质疑 。 


性 


较 差 也 受到 
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神经 网 络 与 判别 分 析 最 大 的 差异 在 于 神经 网 络 具 有 学 习 能 力 ， 因 此 对 于 无 法 以 线性 模 
型 来 区 别 群 组 的 问题 ， 神 经 网 络 最 能 发 挥 特长 与 优势 。 判 别 分 析 是 一 种 “ 白 盒 ” 技 术 ， 具 有 
较 强 的 透明 度 , 模型 中 变量 的 系数 都 具有 一 定 的 经 济 学 含义 ,代表 了 指标 的 重要 程度 ， 可 以 
比较 各 变量 对 模型 贡献 的 大 小 。 而 神经 网 络 是 一 种 “黑箱 ”技术 ， 它 可 以 根据 新 的 样本 不 断 
地 调整 模型 ,适用 于 样本 分 布 不 断 变 化 的 情况 。 根 据 以 往 的 研究 ， 神 经 网 络 方法 能 很 好 地 处 
理 那些 数据 结构 不 太 清 楚 的 情况 , 且 短 期 预测 准确 性 稍 好 于 判别 分 析 方 法 , 但 其 工作 随机 性 
较 强 ， 为 了 得 到 一 个 较 好 的 神经 网 络 结构 ， 需 要 人 为 地 去 调试 ， 而 且 其 样本 训练 时 间 较 长 ， 
非常 耗费 人 力 和 时 间 ， 因 此 在 计算 效率 、 可 解释 性 、 适 应 性 、 稳 定性 、 操 作 简单 性 方面 逊 于 
判别 分 析 方 法 。 此 外 ,神经 网 络 在 分 类 不 当 的 情况 下 错 判 比例 较 高 ， 可 能 造成 模型 的 解释 性 
不 强 。 
神经 网 络 的 优点 是 预测 精度 较 高 。 其 缺点 如 下 : @ 稳 健 性 不 够 好 ， 当 用 保留 样本 进行 预 
测 时 ， 精 度 下 降 较 多 ; @ 模 型 的 解释 性 不 强 ， 建 模 过 程 基本 上 是 一 个 “黑箱 ” @@ 它 主要 用 于 
分 类 ， 即 将 申请 人 分 成 “好 客户 ”和 “ 坏 客户 ”， 而 不 能 像 判 别 分 析 那 样 产生 线性 评分 卡 。 判 
别 分 析 方 法 的 主要 优点 是 稳健 性 较 好 ， 模 型 的 可 解释 性 较 强 ， 可 以 产生 一 个 线性 评分 卡 ; 其 
缺点 是 预测 精度 比 神经 网 络 差 。 

6. 最 近邻 方法 (Nearest Neighbour Classification) 

最 近邻 方法 是 一 种 非 参 数 方法 ， 它 的 思想 是 在 客户 的 特征 向 量 空间 内 定义 一 种 测度 〈 距 
离 ) 用 于 测量 两 个 客户 之 间 的 距离 。 当 对 一 新 客户 信用 评估 时 ， 只 要 考察 与 他 最 近邻 的 k 个 
人 中 “好 客户 ”及 “ 坏 客 户 ” 的 比例 ， 根 据 此 比例 确定 该 客户 的 信用 类 型 即 可 。 

7. 组 合 预 测 方法 (Combination Forecasting) 

组 合 预 测 方法 就 是 设法 将 不 同 的 预测 模型 组 合 起 来 ， 综 合 利用 各 种 预测 方法 所 提供 的 信 
， 以 适当 的 加 权 平 均 形 式 得 出 组 合 预测 模型 ， 以 提高 预测 性 能 。 

例如 ， 利 用 申请 信息 样本 建立 信用 评分 模型 S1， 再 从 信用 局 取得 这 些 客户 的 信用 局 评分 
S2， 然 后 利用 两 种 评分 构造 一 个 组 合 评分 SC=A0+A1S1+A2S2。 通 过 选择 适当 的 组 合 系数 ， 
组 合 模型 评分 就 可 能 优 于 单个 模型 评分 。 


11.2.2 ”评分 卡 模型 分 类 


(1) 评分 卡 模型 应 用 历史 

1936 年 Fisher 提出 了 线性 判别 分 析 法 ， 即 基于 Fisher 线性 判别 函数 产生 一 个 线性 评分 
卡 ，1941 年 杜 兰 特 (Durand) 首先 将 这 一 思想 应 用 于 信贷 领域 ， 区 分 “好 ”的 贷款 和 “ 坏 ” 
的 贷款 。 

20 世纪 60 年 代 后 期 ， 随 着 信用 卡 的 出 现 和 发 展 ， 银 行 和 其 他 信用 卡 发 卡 机 构 开 始 认识 
到 信用 评分 的 作用 和 重要 性 。 

20 世纪 80 年 代 随 着 信用 评分 方法 在 信用 卡 领域 应 用 的 成 功 ， 银 行 开始 将 信用 评分 应 用 
于 个 贷 等 其 他 金融 产品 。 

20 世纪 90 年 代 直 销 公司 开始 使 用 评分 方法 改进 广告 
年 开始 逐渐 使 用 信用 评分 。 

(2) 评分 卡 模型 分 类 

数据 挖掘 建 模 在 商业 应 用 中 以 评分 卡 应 用 最 为 典型 ， 根 据 评分 卡 的 目标 对 象 和 应 用 场景 
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ÈI 


sBr 


肖 售 中 的 响应 率 。 国 内 银行 从 2000 


Co 


可 以 化 分 为 不 同 的 类 别 ， 但 开发 方法 基本 一 致 。 

根据 评分 对 象 评分 卡 模型 可 以 分 为 以 下 两 种 

D 产品 水 平 : 以 不 同 客户 的 不 同 产品 作为 主键 形成 开发 数据 ， 如 银行 中 对 持 有 某 类 理财 
产品 客户 的 收益 的 预测 ， 在 这 种 模型 中 主要 使 用 的 是 该 产品 账户 的 行为 信息 。 

2) 客户 水 平 : 对 于 一 个 客户 拥有 多 个 产品 账户 ， 如 银行 中 某 个 客户 妈 有 贷款 账户 ， 又 有 
借 记 卡 和 理财 产品 ， 这 种 情况 下 若 银行 需要 开发 风险 类 评分 卡 时 ， 往 往 需要 综合 考虑 该 客户 
的 多 个 产品 的 信息 ， 那 些 同 时 持 有 借 记 卡 的 贷款 客户 的 风险 通常 较 仅 有 贷款 的 客户 的 风险 水 
平 偏 低 。 

根据 应 用 目的 评分 模型 可 以 分 为 以 下 3 种 。 

1) 风险 评分 :主要 对 客户 贷款 或 信用 卡 等 在 未 来 的 一 段 时 间 内 的 逾期 可 能 性 进行 预测 ， 
通常 评分 越 高 ， 逾 期 的 可 能 性 越 高 。 
2) 收益 评分 : 主要 根据 客户 使 用 企业 产品 的 行为 变量 ， 对 客户 未 来 一 段 时 间 内 可 能 产生 
的 收益 高 低 进行 预测 ， 通 常 评分 越 高 ， 收 益 越 高 。 在 金融 类 收益 评分 卡 中 ， 收 益 指标 的 定义 
通常 指 收入 扣除 资金 成 本 ， 而 不 是 扣除 其 他 成 本 后 的 利润 ， 这 样 做 的 目的 是 为 了 避免 造成 模 
型 开发 的 复杂 化 。 另 外 ， 收 益 评分 卡 结果 通常 会 和 风险 评分 卡 结果 交叉 使 用 ， 对 不 同 客户 群 
使 用 不 同 的 策略 。 如 图 11-3 所 示 的 风险 收益 交叉 策略 中 ， 其 中 低 风 险 高 收益 的 客户 为 企业 的 
核心 客户 群 ， 应 该 全 力 维 护 ， 对 高 风险 低 收益 的 客户 应 该 采取 一 定 的 限制 措施 ， 低 风险 低 收 
益 的 客户 通常 以 新 客户 较 多 ， 应 以 培养 客户 的 产品 使 用 情况 为 主要 目的 ， 采 取 活 动 促 动 ;高 
风险 高 收益 的 客户 最 需要 关注 的 是 其 风险 变化 情况 ， 目 标 是 将 此 类 客户 的 风险 控制 在 可 接受 
的 范围 。 


j 


收 

全 

B 

分 核心 关注 
客户 风险 


限制 
使 


风险 评分 
图 11-3 ”风险 收益 交叉 策略 


3) 流失 评分 : 主要 对 客户 未 来 一 段 时 间 的 流失 情况 进行 预测 。 通 常 评分 较 高 的 客户 的 流 
失 可 能 性 较 高 ， 流 失 评分 结果 同样 可 以 和 收益 评分 结果 交叉 应 用 。 

根据 客户 生命 周期 管理 的 需要 ， 评 分 模型 可 以 分 为 以 下 3 种 。 

1) 申请 类 评分 : 这 类 评分 模型 用 在 客户 生命 周期 管理 的 客户 获取 阶段 ， 被 用 来 定位 需要 
拓展 的 客 群 。 由 于 客户 获取 阶段 关于 客户 的 行为 变量 是 缺少 的 ， 因 此 开发 申请 类 评分 模型 用 
到 的 变量 主要 是 客户 的 属性 变量 , 数据 主要 来 自 企 业内 部 的 历史 数据 和 人 行 征 信 等 外 部 数据 ， 
基于 模型 开发 样本 同 预测 样本 分 布 的 一 致 性 要 求 ， 申 请 类 评分 模型 开发 时 需 对 申请 拒绝 的 客 
户 表 现 变量 进行 拒绝 推 煌 。 申 请 评分 卡 常 用 的 有 申请 收益 评分 卡 和 申请 风险 评分 卡 。 

2) 响应 类 评分 : 这 类 评分 模型 用 在 客户 生命 周期 管理 的 客户 培养 阶段 ， 主 要 用 来 预测 客 
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户 对 特定 促 动 活动 的 响应 。 响 应 类 模型 可 以 分 为 单产 品 响 应 模型 和 多 产品 比较 1 
发 模型 用 到 的 变量 信息 有 客户 的 属性 变量 、 客 户 的 行为 变量 和 产品 信息 等 。 

3) 行为 类 评分 : 这 类 评分 模型 用 在 客户 生命 周期 管理 的 客户 管理 
户 的 风险 、 收 益 和 流失 等 情况 。 由 于 行为 类 评分 卡 主要 是 根据 客户 的 行 
的 ， 因 此 开发 此 类 评分 卡 所 使 用 到 的 变量 应 以 行 


in| 
ju 


NI 


向 应 模型 ， 开 


阶段 ， 主 要 用 来 预测 客 
为 习惯 来 对 未 来 预测 
日 属性 类 变量 。 


为 类 变量 为 主 ， 尽 量 避 免 使 有 
在 具体 的 策略 应 用 中 可 以 结合 申请 类 计 § 

某 种 程度 可 以 说 申请 类 评分 反映 的 是 一 个 客户 的 潜在 能 力 ， 而 行为 类 六 
的 真实 使 用 情况 。 例 如 ， 一 个 客户 的 申请 收益 评分 很 高 ， 而 行为 收益 相对 较 低 ， 
该 客户 持 有 其 他 公司 的 同类 产品 ， 基 IS RO 


此 可 以 
11.3 数据 挖掘 建 模 流 程 


平分 卡 和 行为 类 评分 来 对 一 个 客户 进行 完整 的 评价 。 从 
分 反映 的 是 一 个 客户 


则 很 有 可 能 


数据 挖掘 建 模 流 程 可 以 分 为 以 下 6 个 阶段 : 需求 分 析 、 数 据 准 备 、 模 型 开发 、 模 型 验证 、 
策略 设计 和 模型 部 署 ， 如 图 11-4 所 示 。 
Er Cr 
m 
l 
ui 
Ü 
um 
y 
设 i 策略 优化 
图 11-4 数据 挖掘 建 模 流 程 
11.3.1 ”需求 分 析 
目标 : 明确 业务 需求 ， 确定 模型 类 型 。 


需求 分 析 是 建 模 的 第 一 步 ， 是 整个 建 模 的 纲领 性 部 分 。 它 主要 包 提 
模型 类 型 和 探索 分 析 。 通 常 需求 分 析 部 分 由 业务 部 门 和 分 析 建 模 团 
要 模型 开发 人 员 深入 业务 第 一 线 进行 实地 调 丰 
商业 目标 的 因素 ， 培 养 J 

1. 业务 目标 

业务 目标 部 分 主要 是 提出 问题 和 确定 问题 的 过 程 ， 
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$3 个 部 分 : 业务 目标 、 
队 共 同 合作 完成 ， 甚 
， 这 些 工作 将 会 有 利于 模型 人 员 深 入 了 解 影 
J 务 直觉 ， 对 后 续 变 量 的 选择 、 和 衍生 和 调整 起 着 重要 的 作用 。 


至 需 


啊 


解决 的 是 模型 要 预测 什么 的 问题 。 


企业 中 的 业务 部 门 〈《 市 场 部 和 风 控 部 等 ) 在 
据 的 时 候 通 常 的 解决 方案 是 根据 业务 经 验 进行 决策 , 这 样 就 会 导致 政策 的 随意 和 
常见 的 业务 问题 有 以 下 几 个 方面 : 


常 作 业 中 会 伴随 一 些 问 


1) 如 何 


发 现 并 精确 定位 营销 的 新 目标 客户 群 ? 


2) 针对 不 同 客 户 群 ， 应 该 向 客户 推荐 哪些 产品 ? 


3) 对 已 持 有 某 类 产品 的 客户 ， 如 何 提高 交叉 多 


4) 如 
5) 如 


ap up iu 


6) 如 


对 存量 客户 开展 促 动 活动 才能 达到 最 好 的 效果 ? 
发 现 高 风险 的 客户 ? 
发 现 有 价值 的 客户 ? 


7) 如 何 
当 业 务 人 员 提 
析 包 括 基 于 企业 数 


进行 某 类 促 动 活动 

必须 首先 进行 小 范围 的 测试 以 便 积累 数据 。 
2. 模型 类 型 
当 业 务 人 员 提 出 业务 问题 ， 

行 抽象 化 ， 从 而 确 


提前 发 现 有 流失 倾向 的 客户 ? 
出 业务 问题 后 ， 分 析 建 模 人 员 应 对 这 些 问 题 进行 建 模 可 行 性 分 析 ， 这 些 分 


题 ， 


n ES 
和 售 效果 ? 


在 没有 模型 
E 和 不 确定 性 。 


据 仓 库 数据 的 了 解 ， 确 定 是 否 存在 相应 的 历史 样本 。 例 如 ， 如 果 要 对 客户 


最 终 在 业务 人 员 和 


并 确 
定 需要 开发 的 模型 类 型 。 


时 ， 就 必须 在 历史 上 曾经 做 过 此 类 或 类 似 类 型 的 活动 。 如 果 缺 乏 数据 ， 则 


认可 行 性 之 后 ， 分 析 建 模 人 员 需 要 将 相应 的 业务 问题 进 


这 个 过 程 通常 需要 反复 多 次 ， 经 过 不 断 的 修正 ， 


分 析 建 模 人 员 之 间 达 成 一 致 。 对 应 上 述 业 务 问题 的 模型 类 型 如 下 : 


1) Hi 


# 关 评分 模型 。 


2) 单产 品 响应 类 模型 。 
3) 多 产品 响应 类 模型 。 
4) 活动 响应 类 模型 。 
5) 风险 评分 卡 。 
6) 收益 评分 卡 。 
7) 流失 评分 卡 。 


3. 探索 分 析 


探索 分 析 的 主要 目的 是 了 解 相关 业务 的 历史 情况 和 数据 分 布 情况 。 通 常 由 分 析 建 模 人 员 


长 


响 ， 尽 量 选择 相对 


pH 


民 据 时 间 维 度 对 相关 业务 主题 的 数据 进行 统计 ， 由 业务 人 员 整 至 
务 记录 的 比 对 ， 深 入 了 解数 据 变化 同业 务 之 间 的 联系 ， 从 而 有 效 剔 除 人 为 因素 对 数据 尼 
”的 时 间 段 的 数据 。 


相关 的 大 事 


Hid, 


通过 数据 和 


E 
H2 


另外 ， 通 过 对 数据 探索 分 析 可 以 了 解 到 历史 上 该 业务 的 相关 效果 ， 使 分 析 建 模 人 员 对 模 


型 效果 形成 初步 的 


TRUM. 


11.3.2 ”数据 准备 


目标 : 扁平 化 开发 数据 集 。 
数据 准备 阶段 是 建 模 过 程 中 最 为 重要 的 阶段 ， 数 
数据 准备 阶段 的 时 间 通 常 占据 整个 模型 开发 过 程 的 一 半 以 上 。 这 


的 质量 ， 


变量 的 衍生 质量 将 


会 直接 影响 到 建 模 
里 


1 


EHE CLR RE 


并 了 较为 完善 的 分 析 数 据 集 市 ， 数 据 准备 阶段 可 以 进一步 细 分 为 5 部 分 : 


口 、 变 量 准 备 、 变 量 衍生 和 数据 抽样 。 


x 


岗 定 义 、 时 间 窗 


313 


1. 表现 定义 
表现 定义 主要 是 对 目标 变量 进行 好 坏 定 义 ， 在 某 些 业务 场景 下 好 坏 定义 是 比较 显然 的 。 
例如 ， 在 响应 类 的 模型 中 ， 只 要 对 某 种 营销 活动 进行 了 回应 和 参与 ， 即 可 定义 为 好 客户 ， 而 
那些 对 营销 活动 没有 反应 的 客户 就 可 以 定义 为 坏 客户 ; 在 申请 类 模型 中 ， 通 过 审批 的 客户 即 
为 好 客户 ， 未 通过 审批 的 客户 即 为 坏 客 户 。 然 而 在 另外 一 些 业 务 场 景 中 好 坏 定义 就 变 得 相对 
比较 模糊 。 例 如 ， 在 收益 类 评分 模型 中 ， 由 于 收入 值 为 连续 变量 ， 无 法 明确 定义 好 坏 ， 通 常 
的 做 法 是 将 连续 变量 进行 离散 化 ， 将 最 高 收益 定义 为 好 ， 将 最 低 收益 定义 为 坏 ， 而 将 客户 视 
为 部 分 好 部 分 坏 进行 处 理 。 
表现 定义 涉及 的 另外 一 个 重要 的 问题 是 表现 窗口 长 度 的 选择 , 即 根据 客户 在 多 长 时 间 
内 的 表现 来 定义 客户 是 好 是 坏 。 表 现 期 的 选择 通常 不 宜 过 长 ， 以 免 目标 变量 同 观察 变量 之 
则 的 时 间 跨 度 太 大 ， 同 时 表现 期 的 选择 必须 使 客户 的 行为 得 以 充分 表现 。 例如， 在 产品 营 
销 类 的 模型 中 ， 通 常 选择 3 个 月 的 表现 期 ， 收 益 类 评分 模型 通常 为 未 来 6 个 月 或 12 个 月 
的 收入 情况 ;风险 及 流失 类 的 评分 卡 要 做 逾期 / 销 户 累计 分 布 分 析 以 确定 选取 多 长 的 观察 
3]. 一般 情 况 下 ， 当 累计 占 比 达到 80% 以 上 ， 且 增长 趋 组 所 对 应 的 时 长 便 可 以 被 选 作 表现 
期 长 度 。 

当 表 现 定义 和 表现 窗口 确定 以 后 ， 需 对 表现 窗口 中 的 客户 进行 分 析 ， 殊 除 一 些 影响 建 模 
效果 的 客户 。 常 见 的 表现 剔除 有 表现 期 销 户 的 客户 ， 表 现 期 逾期 等 状态 异 党 客户， 表现 期 数 
据 缺 失 无 表现 的 客户 。 

2. 时间 窗口 

时 间 窗 口 的 划分 用 来 设 定 观察 变量 和 表现 变量 的 取 值 范围 ， 其 主要 包括 3 个 要 素 : 观察 
点 、 观 察 窗口 和 表现 窗口 ， 如 图 11-5 所 示 。 

观察 点 : 观察 点 是 用 来 对 客户 进行 评分 的 时 点 ， 通 常 为 月 末 时 点 、 账 单 日 或 活动 发 起 
日 期 。 

表现 窗口 : 在 时 间 轴 上 从 观察 点 向 后 推 得 到 表现 窗口 , 用 来 提取 目标 变量 和 进行 表现 排除 。 


时 间 轴 
表现 窗口 观察 窗口 
观 
察 
点 
图 11-5 时间 窗口 示意 图 
观察 窗口 : 从 观察 点 向 前 推 一 段 时 间 得 到 观察 窗口 ， 用 来 提取 自 变 量 信息 和 进行 观察 窗 


口 排除 ， 观 察 窗口 的 长 度 通常 为 一 年 ， 以 消除 季节 性 因素 的 影响 。 
3. 变量 准备 
时 间 窗 口 确定 完毕 ， 根 据 响应 时 间 段 分 别 从 数据 集 市 中 选取 相关 的 主题 数据 ， 然 后 对 数 
据 进行 探索 分 析 和 处 理 ， 生 成 基础 变量 各 个 月 度 的 数据 集 。 
在 商业 分 析 中 常用 的 主题 数据 集 市 如 下 
1) 客户 属性 数据 : 存储 客户 的 自然 属性 和 个 人 收入 、 兴 趣 、 偏 好 、 产 品类 型 等 的 数据 集 
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rH 


主键 通常 是 客户 


的 证 件 号 。 


2) 产品 信息 数据 : 存储 客户 各 个 产品 的 基本 信息 和 状态 变更 情况 。 主 键 通常 是 客户 证 件 
或 企业 内 部 定义 的 账户 。 


号 和 产品 号 的 组 合 ， 


3) 客户 交易 数据 : 客户 的 交易 信息 ， 包 括 交 易 金 额 、 交 易 日 期 、 交 易 币 


se 人 H ^ 
ral J 信息 等 。 


4) 客户 账单 及 风险 数据 : 反映 客户 的 账 务 信息 和 逾期 情况 。 妇 


E 
^" 


逾期 金额 和 逾期 


期 数 等 信息 。 


交易 表 是 客户 行为 变量 的 最 重要 来 源 。 


5) 营销 活动 数据 :记录 客户 对 营销 活动 的 响应 


根据 模型 开发 的 层级 ， 如 产品 级 ， 将 各 个 数据 
有 的 汇总 后 的 数据 按 产 品 和 时 间 主 


变量 的 扁平 化 。 


对 原始 变量 的 扁平 化 数据 集 进 行 各 变量 的 分 析 ， A 


中 缺失 和 异常 需要 
请 表 中 的 


~ 


例如 ， 申 


建 进 


青 况 。 
wn 
行 横向 合并 ， 生 成 


I、 交 易 地 点 和 


上 客户 账单 余额 、 额 度 使 用 


和 可 能 用 到 的 基本 变量 汇总 ， 然 后 将 所 


原始 变量 构成 的 数据 集 ， 即 原始 


[0 频数、 分布 、 缺 失 情 况 和 异常 情况 等 。 


区 别 对 待 ， 异 常 一 般 表示 数据 存在 错误 ， 而 缺失 本 身 也 代表 一 定 的 意义 。 


i 


4. 变量 衍生 


补 。 


变量 衍生 主要 是 在 原 


上 变量 的 衍生 也 可 以 


1) 最 近 值 ， 距 观察 点 最 近 n 个 周期 的 值 ， 如 最 近 一 个 


金额 等 


易 金 额 连续 递减 的 最 


Eo. 


被 认为 


台 变量 的 扁平 表 基 础 上 衍生 上 


AE 


TRDLSAR IR CROSS fU. TER 
例 缺 失 和 异常 的 变量 直接 删除 ， 而 不 是 进行 填 


可 能 


" 


充分 的 条 件 下 通常 将 存在 较 大 比 


FE 入 模型 的 一 些 变 量 ， 某 种 程度 


去 除 变 量 非 线性 的 方法 。 常 见 的 变量 衍生 方法 如 下 。 


的 交易 金额 ， 最 近 两 个 月 的 交易 


大 月 数 等 。 


3) 均值 类 : 反映 客户 平均 水 平 


4) 1 


i 差 类 :反映 客户 稳定 水 平 


E 
JET, 

E3 
JEE, 


" 


iis 


|^ 


& 
& 


2) 趋势 值 : 反映 观察 区 间 某 指标 变化 方向 的 变量 ， 如 交易 金额 连续 递增 的 最 大 月 数 ， 交 


平均 交易 金额 等 。 


如 近 半 


交易 金额 的 方差 等 。 


5) 峰值 和 谷 值 : 反映 客户 的 极 值 情况 ， 如 最 大 交易 金额 、 最 低 交 易 金 额 等 。 


变量 衍生 首先 将 原始 数据 集 在 时 
此 基础 上 通过 构造 数组 的 方式 ， 使 用 不 同 的 函数 得 


扁平 化 的 开发 数据 集 
5. 数据 抽样 
进行 抽样 前 ， 

的 记录 进行 样本 排除 


抽样 的 目标 通常 
法 是 将 全 部 坏 客 户 均 抽取 ， 好 客户 i 


样本 的 分 布 一 致 。 例 


三 | 


EIS 
先 根据 时 间 窗 口 分 析 确 定 的 排外 条 们 


， 得 到 开发 样本 集 


每 个 样本 对 应 一 条 记录 ， 然 后 在 


间 维 度 进行 转 置 ， 使 得 


tu, 4 


最 后 ， 
本 的 数量 要 求 大 于 等 


T 5000 ^. 


行 


， 然 后 从 其 中 按照 随机 的 方式 进行 抽 
本 集 在 抽样 过 程 中 会 被 按照 7:3 的 比例 被 分 成 两 个 部 分 ，70% 的 样本 用 来 进行 模型 
余 30% 的 样本 被 用 来 做 后 续 样本 内 的 模型 校 验 。 
使 得 样本 中 好 坏 客户 上 


B6 PL 


续 各 变量 特征 


变量， 最 终 形成 模型 开发 所 需要 的 


F， 对 上 一 步 扁 平 化 的 开发 数据 集中 


样 。 通 常 上 述 样 


的 训练 ， R 


E 例 相当 ， 如 果 总 样本 集中 坏 客户 过 少 ， 通 常 的 做 
取 ， 然 后 对 记录 数 添 加 权重 因 
行 中 的 风险 类 评分 卡 开发 中 ， 形 成 坏账 的 客户 占 总 体 客 群 的 比例 
通常 非常 小 ， 抽 样 是 将 其 全 部 选取 ， 而 从 好 客户 中 选择 相应 量 的 好 样本 即 可 。 

值得 注意 的 是 ， 为 了 保证 后 


子 ， 以 保证 同 总 


值 分 组 的 客户 数 具 有 统计 意义 ， 一 般 样 
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11.3.3 REFR 


目标 : 得 到 评分 卡 。 


量 处 理 
方法 进行 变量 


且 平 滑 变 量 的 变化 趋势 。 
取 
预测 变 和 
分 群 的 依据 通常 TH 也 会 


=i 
FB , 


ML RE 


后 得 到 训练 样本 集 数 据 ， 由 于 变量 

$us. Ay 
取 值 进行 分 箱 并 计算 证 据 权 重 WOE CWeight of Evidence) 值 ， 从 而 
IV 值 大 于 0.02 的 那些 变量 进入 模型 。 


通常 被 选 作 分 群 变量 ， nd 
民 据 业务 上 的 需 


量 处 理 、 模 型 建立 、 


评分 转换 和 模型 评估 4 个 步骤 。 


mac 


由 于 各 变量 的 量 纲 和 取 值 


时 数量 通常 


H 


很 多 ， 不 推荐 


ARX) 归 的 


区 间 存 在 很 大 差别 ， 


通常 会 先 对 变量 的 


接 下 来 ， 在 此 基础 上 计算 信 ， 


EME 


如 果 当 一 个 变量 的 IV 值 
本 拆 分 成 多 个 群体 ， 针对 不 同 的 群体 分 别 开 发 订 


证 据 权 重 WOE 是 


ips 


poa BPE 


E 
B3 


WOE, = «((& 
g 


式 中 WOE; 一 一 


某 变量 第 i 各 属性 对 应 的 WOE 值 ; 


w 


E A. 


里 加 


i 各 属性 


一 一 某 变 量 
g 一 一 样本 
b 一 一 样本 


IRAN. 
S511 


各 属性 
中 总 的 好 客户 数 ; 
中 总 的 坏 客户 数 。 


对 应 的 好 客户 数 ; 
对 应 的 坏 客户 数 ; 


Œ) 


WOE 的 值 越 高 ， 代 表 着 该 分 组 中 客户 是 坏 客户 的 风险 越 低 。 


信息 


价值 IV 是 用 来 衡量 茶 个 变量 对 好 坏 客户 


wazee) 


b 


i 


b 


IV 的 
2. 模型 建立 


E. — 


评分 卡 模型 用 到 的 方法 很 多 ， 其 中 Logistic 回 


值 越 大 表示 好 坏 客户 在 该 变量 上 的 分 布 差异 越 大 ， 也 即 该 变量 


区 分 能 力 的 一 个 指标 。 


)-xX 


£i 
g 


E. 
EH 


H 


目标 变量 是 


归 模型， 


元 值 


的 概率 函数 ， 即 前 面 


结果 并 不 是 对 一 个 客户 给 出 明确 的 好 或 坏 的 概率 ， 


定义 


的 好 坏 客户 的 概率 。 


而 降低 变量 属 ' 
IV (Information Value), 


大 于 0. 


是 应 用 最 为 广泛 的 方法 。 


[a 


E 
一 般 选 
该 变量 属于 过 


FP 分 卡 。 


5 时 ， 


进行 设 定 ， 常 见 以 区 域 变量 作为 分 群 的 标准 。 
的 风险 的 指标 ，WOE 的 计算 公式 为 


IV 的 计算 


公式 为 


一 >) x WOE; 


的 区 分 能 力 越 好 。 


对 
Logistic [El 


于 Logistic 回 
归 分 析 的 


一 个 连续 的 值 。 具 体 公 式 如 下 所 示 : 


即 目 标 函数 可 以 看 做 是 对 WOE 值 的 线性 回 
将 转换 后 的 变量 的 WOE 值 作为 自 变 量 输入 建 模 ，SAS 编程 过 程 使 


过 程 步 来 完成 建 模 。 


P 
[1 - log(o 
Ps 


归 函 数 。 


proc logistic data=INPUT_TB; 
model Y(event-'1)-X LIST 
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/selection-stepwise 
slentry-0.05 


而 是 该 客户 是 好 客户 或 坏 客户 的 概率 ， 是 


dds) 


ar 


用 PROC LOGISTIC 


slstay=0.05 

details 

Outroc=roc; 
weight weight; 


run; 


【程序 解读 】 


data=: 

model: 

Y(event-1): Y 是 响应 变量 ， 
建 模 的 对 象 是 好 客户 的 概率 。 

X LIST: 自 变 量 


指定 用 了 
指定 模型 中 的 


向 应 变 


E 


里。 


TE EI AER 


为 二 分 变量 


E. 


该 过 程 的 分 析 建 模 数 据 集 为 INPUT TB. 


量 {0,1} 分 别 代表 坏 客户 和 好 客户 ，event='1' 代 表 


量 列表 。 

selection: 指定 变量 筛选 的 方法 。 

变量 T Ead 3 种 。 

1) FORWARD 前 回归 法 : 初始 选择 一 个 变量 进入 模型 ， 后 续 变 量 逐 个 加 入 模型 ， 
通过 计算 该 变量 的 偏 回 站 平方 和 ， 决 定 是 否 保留 该 变量 。 向 前 回归 法 也 被 称 为 进入 法 ， 变 量 

且 被 选择 ， 

2) BACKWARD 吾 回 归 法 ;初始 选择 所 有 变量 进入 模型 ， 然 后 根据 偏 回 归 平 方 和 
逐个 删除 不 显著 的 变量 。 向 IEEE ARH AREE — HRI MAE e 

3) STEPWISE 一 一 逐步 回归 法 : 最 常用 的 方法 ， 变 量 逐 个 进入 模型 ， 进 入 时 进行 偏 
回归 平方 和 检验 ， 当 该 变量 被 选中 ， 需 对 原 有 的 变量 重新 进行 偏 回归 平方 和 检验 ， 并 崭 
除 不 显著 的 变量 。 最 后 直到 其 他 新 变量 再 也 无 法 进入 模型 ， 同 时 老 变 量 再 也 无 法 被 剔除 
为 止 。 

slentry: 当 selection=stepwise 或 forward 时 指定 变量 进入 模型 所 要 求 的 显著 水 平 。 

sltay: 当 selection=stepwise 或 backword 时 指定 变量 保留 在 模型 中 的 显著 水 平 。 

details: 输出 模型 选择 过 程 的 每 一 步 的 详细 结果 。 

outroc=: 对 二 值 响应 模型 输出 一 个 数据 集 ， 如 数据 集 名 ROC。 其 包含 生成 ROC 曲线 的 
相关 数据 。 

weight: 指定 数据 集中 的 每 一 条 观测 的 权重 系数 ， 如 变量 weight. weight 可 以 是 小 数 ， 若 


weight 的 值 为 负数 或 缺失 ， 那 么 忽略 该 条 观测 记录 。 
3. 评分 转换 


模型 建立 以 后 得 到 的 log(odds) 值 是 建 模样 本 的 好 / 坏 比 的 对 数 ， 分 值 可 以 为 负 值 ， 使 
得 分 值 的 可 解读 ERE. 为 了 使 评分 结果 更 加 容易 理解 ， 具 有 实用 性 ， 我 们 希望 看 到 的 评 
分 卡 均 为 正 整 数 ， 因 此 通常 对 变量 的 特征 值 进行 线性 比例 变换 ， 并 加 上 一 个 偏 移 量 ， 如 下 
所 示 : 

SCORE = factor xlog(odds) + offset 
-factor [2 a x Woe; 8) + offset 
= o; x woe, tp 


其 中 ， 比 例 


因子 factor 和 1 


HÆ offset 可 以 通过 过 以 下 常用 规则 确定 : 
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1) 好 : 坏 =20:1 时 对 应 评分 


2) 评分 每 增加 20 分 ， 


因此 有 : 


上 式 可 以 根据 变量 


i P 


log(20)xfactor4 


600. 


好 坏 比 增加 一 倍 。 


Foffset-600 


log(40)xfactor4 


Foffset-620 


factor-20/log(2)- 28.8539 
offset-600—1og(20)*factor-600-2010g(20)/log(2)7 513.561 


SCORE-28.85 
—28.85 


模型 评估 主要 是 对 模型 的 效果 i 
E 力 和 模型 的 稳定 性 。 
(1) 模型 的 合理 性 
FE 主 要 指 评分 结果 同业 务 经 验 要 吻合 


DUE 


MR 


通过 变量 和 评分 


的 


(2) 模型 的 预测 能 力 


模型 的 预测 


的 区 分 能 力 ， 且 同 实 


E 力 指 评分 卡 能 够 对 目 
际 情况 吻合 度 较 高 。 常 用 的 衡量 评分 卡 


量 各 特征 属性 的 woe 值 


39xlog(odds)+513.561 
39x (2 woe, tb]. 513.561 


及 回 


行 评价 ， 通 常 包 


归 系 数 得 


， 不 存在 严 


到 评分 值 。 


含 3 个 方面 : 模型 的 合理 性 、 


标 变 量具 


有 较 好 的 预测 ， 


述 统计 来 分 析 ， 如 最 大 值 、 最 小 值 和 趋势 等 。 


EREA. AF 


模型 的 预 


理性 的 验证 通 


即 模型 对 好 坏 客户 具有 一 定 


(Divergence), K-S 检验 (Kolmogorov-Smirnov) 和 GINI 系数 等 。 


A ABE CLER 


11-60. 主要 是 基于 评分 的 好 坏 客户 的 整体 分 布 的 差别 ， 计 入 


divergence = 


(H good — Hoad ) 


2. 2 
nes * Obad ) 


分 离 度 


F 预测 能 


力 的 指标 有 分 离 度 


公式 如 下 : 


图 11-6 


分 离 度 (Divergence) 


通常 分 离 度 越 高 ， 评 分 模型 的 排序 能 力 越 强 。 


K-S 值 (Kolmogorov-Smirnov) 描述 的 是 好 坏 客 户 群 体 累 计 分 布 的 最 大 差异 ， 如 图 11-7 


所 示 。 
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10096 


Bads Goods 


Score 


图 11-7 K-S ffi (Kolmogorov-Smirnov) 


通常 K-S 值 越 大 ， 评 分 模型 的 排序 能 力 越 强 。 
GNI 系数 是 好 客户 累计 百分比 与 坏 客户 数 累计 百分比 在 模型 与 随机 时 的 差 什 
Bia. 


如 图 11-8 


~ 


随机 分 布 
评分 模型 


Score 


图 11-8 GINI 系数 


(3) 模型 的 稳定 性 
稳定 性 的 检查 主要 通过 后 面 模 型 验证 部 分 的 样本 内 校 验 和 样本 外 校 验 来 完成 。 


11.3.4 ”模型 验证 


目标 : 确认 模型 对 新 样本 有 效 。 

模型 验证 是 为 了 检查 从 训练 集 的 学 习 得 到 的 模型 是 否 对 新 的 样本 数据 有 效 ， 主 要 可 以 分 
为 3 部 分 : 样本 内 校 验 、 样 本 外 校 验 和 模型 比较 确认 。 

(1) 样本 内 校 验 

在 模型 开发 前 的 数据 准备 阶段 ， 抽 样 将 总 体 拆 分 成 7:3 两 部 分 ， 其 中 70% 的 样本 用 来 作 
为 训练 集 进行 模型 学 习 ， 剩 下 的 30% 被 用 来 作为 模型 校 验 。 由 于 这 两 部 分 来 源 于 一 个 总 体 ， 
因此 又 称 为 样本 内 校 验 。 样 本 内 校 验 回答 的 是 模型 对 于 同一 时 期 的 新 数据 是 否 有 效 的 问题 
样本 内 校 验 的 步骤 如 下 : 

1) 对 该 部 分 数据 中 和 模型 相关 的 变量 的 特征 值 ， 按 照 模 型 中 该 变量 特征 值 和 WOE 的 对 
应 关系 进行 映射 ， 得 到 该 变量 的 WOE 值 。 

2) 根据 评分 转换 公式 ， 结 合 步骤 1 中 得 到 的 WOE 值 计 样本 的 评分 。 

3) 对 新 样本 的 评分 结果 进行 模型 评估 ， 通 常 只 选择 K-S 值 与 训练 样本 进行 比较 ， 检 查 


rz 
o 
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K-S 值 是 否 发 生 较 大 变化 ， 若 变化 不 大 说 明 模 型 稳定 性 较 好 。 
(2) 样本 外 校 验 
如 果 说 样本 内 校 验 是 对 模型 空间 有 效 性 的 校 验 ， 那 么 样本 外 校 验 则 是 对 模型 在 时 间 维 度 
上 的 有 效 性 的 检验 。 可 以 想象 ， 随 着 时 间 的 推移 带 来 的 环境 因素 的 改变 ， 模 型 的 适用 性 势必 
会 有 所 降低 ， 但 对 于 模型 的 应 用 通常 要 求 其 在 一 定 的 时 间 段 内 具有 相对 的 稳定 性 。 通 常 一 个 
模型 的 使 用 寿命 通常 为 两 年 ， 样 本 外 校 验 使 用 的 数据 通常 为 训练 集中 观察 点 后 移 3 一 6 个 月 。 
样本 外 校 验 的 过 程 同 样本 内 校 验 基 本 类 似 ， 所 不 同 的 是 需要 根据 新 的 观察 点 确定 观察 窗 
和 表现 窗口 ， 并 生成 新 的 扁平 化 数据 集 。 
(3) 比较 确认 
在 模型 开发 阶段 ， 通 常会 出 现 效果 类 似 的 模型 变量 组 合 ， 有 时 会 有 人 为 的 对 于 变量 的 调 
整 ， 这 样 一 来 会 存在 多 个 待 选 样本 ， 比 较 确 认 就 是 通过 上 述 的 分 析 方法 比较 各 个 样本 的 合理 
性 、 预 测 能 力 和 稳定 性 ， 最 终 做 出 选择 ， 确 定 综合 效果 最 优 的 模型 。 


11.8.5 策略 设计 


目标 : 生成 基于 模型 业务 策略 。 

策略 设计 是 根据 评分 模型 的 结果 ， 划 定 分 数 区 间 ， 并 结合 其 他 业务 变量 对 客户 进行 细 分 ， 
形成 不 同 的 营销 和 管理 策略 ， 最 终 在 业务 层面 解决 业务 需求 问题 。 策 略 设计 主要 包括 策略 分 
析 、 外 部 变量 、 评 分 变量 和 策略 优化 。 

(1) 策略 分 析 
首先 根据 业务 需求 确定 业务 要 实现 的 目标 ， 并 分 析 业 务 活动 的 方案 和 限制 条 件 ， 最 终 确 
定 如 何 将 使 用 模型 结果 进行 策略 设计 ， 以 产品 推荐 策略 为 例 。 
业务 目标 : 向 不 同 的 客户 推荐 最 有 可 能 得 到 客户 响应 的 产品 ， 获 取 最 大 的 响应 率 。 
活动 方案 : 礼品 馈赠 、 服 务 馈 赠 、 费 用 优惠 等 。 

限制 条 件 ， 一 定 限额 的 营销 成 本 。 

根据 上 述 分 析 ， 首 先 利 用 产品 响应 模型 得 到 的 客户 对 不 同 产品 的 响应 评分 ， 从 中 挑选 响 
应 评分 最 高 的 产品 作为 推荐 产品 。 其 次 ， 对 相同 推荐 产品 的 不 同 客户 根据 其 评分 高 低 ， 设 置 
合适 的 分 割 点 ， 将 客户 划分 为 3 个 区 间 ， 针 对 不 同 区 间 分 别 使 用 不 同 强度 的 营销 方案 。 例 如 ， 
对 响应 评分 较 低 的 客户 直接 进行 礼品 馈赠 ， 响 应 评分 中 等 的 使 用 费用 优惠 ， 而 响应 评分 较 高 
的 可 以 进行 服务 馈赠 或 不 采取 任何 营销 。 最 后 ， 根 据 活动 成 本 限制 ， 核 算 目 标 人 数 ， 从 各 分 
群 中 按照 从 高 到 低 的 评分 进行 客户 筛选 ， 完 成 整个 策略 的 分 析 和 制定 。 

(2) 外 部 变量 
业务 策略 中 除了 会 使 用 模型 相关 的 变量 外 ， 还 会 根据 政策 和 实际 执行 限制 选取 一 部 分 外 
部 变量 作为 决策 依据 。 最 常用 的 外 部 决策 变量 有 地 域 、 国 籍 等 变量 。 例 如 ， 银 行 中 的 很 多 银 
行业 务 通常 以 分 行为 具体 执行 单位 ， 不 同 地 区 的 政策 存在 很 大 的 差别 ， 因 此 政策 设计 时 通常 
会 首先 根据 区 域 变量 进行 划分 。 另 外 ， 外 部 变量 还 包含 其 他 模型 评分 结果 变量 。 总 之 ， 在 策 
略 准备 阶段 需要 完成 相关 外 部 变量 的 分 析 和 准备 工作 。 

(3) 评分 变量 

评分 变量 是 指 模型 的 评分 结果 ， 被 用 来 对 客户 进行 排序 。 评 分 变量 使 用 方法 通常 有 单 点 
切 审 和 多 点 切割 两 种 方法 。 
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ME 


单 点 切割 是 根据 评分 分 布设 置 一 个 评分 截止 点 ， 高 于 该 评分 的 客户 ; 
的 客户 则 被 拒绝 。 例 如 ， 上 


t 容 妨 的 坏账 率 ， 计 多 


通过 ， 而 低 于 该 评分 
8 相应 的 申请 评分 


点 ， 高 于 该 评分 的 客户 会 直接 通过 有 


多 点 切割 是 根据 评分 分 布设 置 多 个 分 割 点 ， 将 所 有 客户 划分 成 两 个 以 上 的 群体 。 多 点 切 


(4) 策略 优化 


策略 优化 的 方法 有 单 因 素 实 验方 案 和 冠军 挑战 者 方案 。 眉 


割 的 使 用 多 见于 响应 类 评分 -| 


Ko Alin, MRI ARN 


台中， 通常 业务 部 门 会 设置 多 套 不 同 力度 


的 挽留 方案 ， 而 评分 应 用 中 会 对 应 将 客户 分 成 多 个 和 
对 较 弱 的 方案 ， 而 对 评分 较 低 的 人 群 使 用 促 动力 度 较 


Ll 体 ， 对 评分 较 高 的 人 群 


使 用 促 动 力度 相 


控制 其 他 变量 不 变 ， 只 改变 一 个 变量 的 取 值 ， 以 测试 该 变 


冠军 挑战 者 方案 是 最 常 月 


据 模型 结果 制定 相对 冠军 策 
下 来 将 应 用 客 群 随机 分 成 两 组 或 多 个 实验 
挑战 者 策略 ， 根 据 后 续 跟 踪 策 略 执 行 结果 ， 对 比 不 同 小 组 的 客户 表现 ， 如 


在 每 一 个 实验 组 中 
策略 结果 的 影响 。 单 因素 实验 
可 以 准确 地 反映 每 个 因素 对 策略 的 影响 ， 但 不 能 反映 不 同 因素 之 间 可 能 存在 的 相互 影响 。 

首先 将 当前 最 好 的 营销 策略 作为 冠军 者 策略 ， 然 后 根 
局 离 的 策略 。 挑 战 者 可 以 是 一 个 也 可 以 是 多 个 。 接 
中 一 个 小 组 应 用 冠军 者 策略 ， 其 他 小 组 应 用 


和 场 响应 率 等 ， 将 


响应 率 最 高 的 小 组 的 策略 作为 冠军 。 这 样 通过 不 断 的 实验 来 测试 新 的 挑战 者 策略 ， 最 终 得 到 
最 优化 的 策略 方案 。 通 常 由 于 成 本 和 风险 的 考量 ， 冠 军 策略 的 小 组 比例 占 整 个 群体 的 80% 以 


上 ， 而 挑战 组 策略 在 具有 统计 意义 的 情况 下 尽 可 能 的 限 人 


11.86 RERE 


目标 : 实施 和 跟踪 模型 策略 。 


评估 整个 策略 的 优 劣 ， 但 和 


央 人 数 。 冠 军 挑战 者 方案 从 最 终 效果 
个 变量 的 策略 结果 的 影响 程度 。 


模型 的 部 署 是 将 评分 


模型 和 策略 树 自动 部 署 到 企业 的 生产 运营 系统 中 ， 实 现 每 日 或 一 


固定 周期 策略 的 自动 生成 、 分 发 和 效果 监控 工作 ， 主 要 可 以 分 为 3 部 分 : 评分 实施 、 策 略 树 


和 模型 监控 。 
1. 评分 实施 


评分 实施 解决 的 是 从 模型 变量 到 客户 计 


分 分 值 转换 的 任务 。 首 先 ， 基 于 评分 模型 生成 的 


评分 卡 构建 各 变量 区 间 到 分 值 的 映射 ， 在 SAS 中 可 以 通过 PROC FORMAT 过 程 或 者 HASH 


对 象 的 方法 实现 。 然 后 ， 将 映射 应 用 到 各 个 模型 变 


的 整体 评分 。 
2. 策略 树 


策略 树 解 决 的 是 从 描述 策略 
生产 系统 中 。 这 个 过 程 主要 考虑 的 是 策略 的 变更 需要 


(1) 策略 树 的 生成 


策略 树 的 生成 其 实 就 是 
列 的 条 件 语 句 组 成 的 。 例 如 ,年龄 大 了 


述 性 策略 到 策略 树 形 结构 的 转换 。 


FAT 18 岁 可 以 允许 贷款 审 护 


分 进行 累加 得 到 客户 


各 实施 的 任务 ， 也 即 如 何 将 策略 部 署 到 


述 性 策略 通常 是 由 一 系 
kt， 而 年 龄 小 于 18 岁 的 不 


能 获得 贷款 。 这 些 自然 语言 的 描述 通 


谷 易 懂 ， 但 缺乏 标准 化 ， 需 将 其 转化 标准 的 描述 方式 ， 


以 便 生 成 策略 参数 表 , 便于 部 署 和 维护 。 通常 所 用 的 方法 是 将 其 转化 为 树 形 结构 ,如 图 11-9 


所 示 。 
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年 龄 


年 收入 


图 11-9 策略 树 结 构 示 意图 


(2) 策略 树 的 部 署 

策略 树 的 部 署 主要 是 指 将 策略 树 转 化 成 参数 表 ， 并 将 参数 表 应 用 到 开发 系统 的 工作 
中 。 从 策略 树 到 参数 表 通 常 的 做 法 是 将 策略 树 的 每 一 行 对 应 到 数据 表 的 一 条 记录 ， 并 且 
上 一 条 记录 的 区 间 履 盖 下 一 条 记录 对 应 的 子 区 间 。 图 11-9 的 策略 树 经 过 转化 如 表 11-1 
所 示 。 


表 11-1 策略 参数 表 


varnm valuel value2 value3 value4 
年 龄 0 18 co 
年 收入 0 50000 eo 


3. 模型 监控 

模型 监控 主要 包含 两 部 分 : 评分 模型 的 监控 和 策略 结果 的 监控 。 

(1) 评分 模型 的 监控 

每 一 个 评分 卡 都 存在 相应 的 使 用 寿命 ， 随 着 应 用 环境 的 变换 ， 模 型 预测 的 前 提 历 史 的 重 
JE 


p- 


HH » 

现 性 不 再 存在 ， 因 此 需要 对 模型 的 应 用 效果 进行 跟踪 、 分 析 、 对 比 和 评价 ， 决 定 模型 是 否 还 
可 以 继续 使 用 ， 是 否 需要 对 模型 进行 调整 和 重新 开放 。 通 常 在 模型 部 署 上 线 之 后 ， 会 开放 一 
系列 的 监控 报表 分 别 对 模型 进行 前 端 和 后 端的 跟踪 。 
前 端 跟踪 主要 解决 模型 的 适用 性 问题 ， 即 评估 应 用 评分 卡 模型 的 人 群 分 布 和 开放 评分 卡 
时 的 样本 人 和 群 分 布 是 否 发 生 重大 偏 移 。 常 用 的 评价 指标 有 PSI 和 CSI. 

后 端 跟踪 主要 解决 模型 的 有 效 性 问题 ， 即 评估 模型 在 新 样本 人 和 群 中 的 预测 结果 和 实际 表 
现 结果 之 间 的 差异 。 常 用 的 评价 指标 有 分 离 度 和 -Ss 值 。 

(2) 策略 结果 的 监控 

策略 监控 主要 对 冠军 和 挑战 者 策略 结果 进行 跟踪 ， 评 价 新 的 冠军 策略 ， 进 行 策略 的 重新 
调整 。 


11.4 评分 卡 模型 开发 案例 


本 节 以 响应 评分 卡 模型 的 开发 为 例 具体 介绍 评分 卡 开发 中 的 SAS 相关 内 容 。 响 应 评分 卡 
模型 是 针对 客户 对 某 一 种 产品 的 响应 概率 进行 预测 的 模型 。 
了 22 


11.4.1 前 段 准备 


1. 需求 分 析 
(1) 业务 目标 
银行 新 推出 一 种 理财 产品 ， 计 划 向 银行 目前 所 有 存量 客户 进行 营销 ， 需 要 对 其 中 响应 率 
较 高 的 客户 重点 推荐 ， 对 其 中 响应 率 较 低 的 客户 短信 通知 。 
(2) 模型 类 型 
单产 品 响应 模型 。 
(3) 探索 分 析 
对 历史 数据 进行 分 析 ， 选 择 类 似 产品 的 营销 的 相关 数据 构建 建 模 数据 集 。 
2. 数据 准备 
(1) 表现 定义 
在 历史 营销 活动 中 ， 定 义 购 买 产品 的 客户 为 好 客户 、 没 有 购买 该 产品 的 客户 为 坏 客户 。 
(2) 时 间 窗 
观察 点 : 历史 活动 开始 日 期 ， 如 2012 年 1 月 1 日 。 
表现 窗口 : 首先 对 活动 响应 事件 进行 累计 客户 数 分 析 。 客 户 在 营销 时 点 后 6 个 月 内 的 累 
计 客 户 数 变化 情况 ， 如 图 11-10 所 示 。 


3 4 
月 数 
11-10 客户 累计 响应 分 布 图 


从 图 11-10 可 以 看 到 在 第 三 个 月 时 有 约 95% 的 响应 客户 已 经 响应 。 也 就 是 说 ，3 个 月 的 
时 间 客 户 的 响应 的 好 坏 情况 已 经 充分 表现 ， 因 此 可 以 将 表现 窗口 的 长 度 定义 为 3 个 月 来 对 客 
户 的 好 坏 进行 定义 。 

表现 窗口 为 2012 年 1 月 1 日 ~3 月 31 日 。 

观察 窗口 ， 观察 窗口 通常 选择 客户 观察 点 向 前 一 年 的 时 间 ， 这 样 可 以 避免 节假日 等 季节 
性 因素 的 影响 。 观 察 窗口 为 2011 4E 1 H 1 H—12 H31 H. 
建 模 的 时 间 窗 口 如 图 11-11 所 示 。 


时 间 轴 


2011.1.1 一 年 3 个 月 2012.3.31 


2012.1.1 
图 11-11 时 间 窗 
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(3) 变量 准备 


建 模 可 能 


到 的 主题 集 市 及 数据 。 


ni 


1) Pj 


性 数据 表 如 表 11-2 所 示 。 


表 11-2 客户 属性 


m 号 变量 名 称 变量 标签 
1 user id 客户 ID 
2 sex 性 别 
3 age 年 龄 
4 home address 户籍 地 址 
5 work_address 工作 地 址 
6 family address 家 庭 地 址 
7 phone 电话 
8 marriage 婚姻 状况 
9 house 住房 状况 
10 occupation TN 
11 postion 只 位 
12 income 收入 


2) 账户 产 


品 数据 表 如 表 11-3 所 示 。 


表 11-3 账户 产品 属性 
序 号 变量 名 称 变量 标签 
1 acct id 账号 
2 product id 产品 ID 
3 type 账户 类 型 
4 Level 账户 级 别 
5 mtgloan bal 按揭 余额 
6 deposit bal 存款 余额 
7 deposit yravg 存款 年 日 均 
8 deposit qravg 存款 季 日 均 
9 deposit moavg 存款 月 日 均 
10 loan bal 贷款 余额 
11 fina bal 里 财 余 额 
12 bound bal 国债 余额 
13 fund bal 基金 余额 
14 insu bal 保险 余额 
15 salary card flag 是 否 代 发 工资 
16 sign ebank flag 是 否 为 网 银 客 户 
17 credit card flag 是 否 为 信用 卡 客户 


3) 交易 数据 表 如 表 11-4 所 示 。 


表 11-4 交易 数据 表 


序 号 变量 名 称 变量 标签 
1 mo trnx amt 月 交易 金额 
2 mo trnx ent 月 交易 次 数 
3 mo draw amt 月 取现 金额 
4 mo draw cnt 月 取现 金 次 数 
D mo expd amt 月 消费 金额 
6 mo expd ent 月 消费 次 数 
7 mo trac amt 月 转账 金额 
8 mo trac cnt 月 转账 次 数 
9 mo fcur amt 月 外 币 交 易 金额 
10 mo fcur cnt 月 外 币 交 易 次 数 


4) 风险 数据 表 如 表 11-5 所 示 。 


表 11-5 风险 数据 表 


序 号 变量 名 称 变量 标签 
1 prop times 放款 次 数 
2 prop amt 放款 金额 
3 overdue amt 逾期 金额 
4 baddue amt 采 消 金额 
baddebt amt 采 账 金额 
6 odue times 逾期 次 数 
7 long odue days 最 长 逾期 天 数 


营销 结果 数据 通常 为 手工 记录 得 到 的 Excel 文档 ， 需 要 进行 批量 
Excel 文件 的 sheet 的 批量 导入 程序 。 


和 入， 下面 的 SAS 宏 为 


pi 


Vomacro excel import (file,sheet,outlib,outpre,varnm-1,range-); 
pr 0. 参 数 处 理 */ 
%if "V osysfunc(sum(Voindex(&file.,Vostr(96)), V oindex(&file.,Vostr(?0"))))»—1 
Vothen %let file-?osysfunc(compress(&file.,Vostr(90"9'))); 

Voelse "olet file-?osysfunc(pathname(&file.)); 
%let sheet-9?olowcase(&sheet.); 
vof %bquote(&outlib.)^=  ?ethen %let outlib-?olowcase(&outlib..); 
Vof9obquote(&outpre.)^- ^ 9Vethen olet outpre=%lowcase(&outpre.); 
/*sheet 变量 拆 分 */ 
%local sheet ex; 
%let sheet ex=%scan(%bquote(&sheet.),2,]); 
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%let sheet-?oscan(Yobquote(&sheet.),1,|); 
/*sheet list 变量 列表 */ 

%local sheet list; 

%if %bquote(&sheet.)=%str(*) %then %do; 


libname xlsfile excel "&file.; /*Excel 指定 引擎 读 取 xls 格式 文件 ，xlsfile 指定 Excel 库 */ 


proc contents 
data-xlsfile. all directory 
memtype-data noprint 
out-mcr xls import file nodetails; 
run; 
proc sql; 
select distinct compress(memname,' $') into :sheet list 
from mcer xls import file; 
quit; 
proc datasets 
mt-data nolist; 
delete mcr xls import file; 
run; 
libname xlsfile clear; 
9 oend; 
%else "olet sheet list-&sheet.; 
/从 sheet list, sheet ex 列表 拆 分 */ 
%local ij; 
%let i71; 
%do %until(%scan(&sheet list.,&i.,%str( ))= ); 
%local sheet list &i.; 
%let sheet list &i.=%scan(&sheet_list.,&i.,%ostr( )); 
Volet i=%eval(&i.+1); 
%end; 
%let j=l; 
%do %until(%scan(&sheet_ex.,&j.,%str( ))= ); 
%local sheet_ex_&j.; 
%let sheet ex &j.=%scan(&sheet ex.,&j.,%ostr( )); 
Volet J=%eval(&j.+1); 
%end; 


it 1. 主 程序 


separated by 


1 


1 


%local mn sheet nm sheet tb — sheet import flag out sn 
Volet out sn-l; 
%do  m-1 %to 9oeval(&i.-1); 

%let sheet import flag=1; 

/# 判 断 shee nm 是 不 是 在 排除 范围 */ 

Volet sheet nm=&&sheet list &m..$; 

Volet sheet tb-?6sysfunc(compress(&sheet nm., ,kad)); 

9 olet n=l; 

%do %until(%bquote(&sheet import flag.)-0 or &n.-&j.); 


, 


ui 


%if %lowcase(&&sheet list &m..)=%lowcase(&&sheet ex &n..) %then %let 
sheet import flag-0; 
Volet n=%eval(&n.+1); 
S oend; 
PHA SNR SEPTIES 
%i  &sheet import flag.-1 %then %do; 
Proc import out-?Josysfunc(compress(&outlib.&outpre.&sheet tb.)) 
datafile= "&file." 
dbms-excel replace; 


range-"&sheet nm.&range."; /*range-"sheet$al:c9";*/ /*sheet-"&sheet tb.";*/ 
Vf SVobquote(&varnm.)-1 %then Vostr(getnames-yes;); 

Voelse V ostr(getnames-no;); 
mixed-yes; 


scantext—yes; 


usedate—-yes; 
quit; 
%put «ok!» &out sn. &file.|&sheet tb.[Vosysfunc(coalescec(&range.,all))] = 


&outlib.&outpre.&sheet tb.; 
Volet out sn-?oeval(&out sn.-1); 
S end; 
S oend; 
%mend excel import; 


【 宏 参 数 说 明 】 

程序 名 称 : %excel_import(file,sheet,outlib,outpre,varnm=1 ,range=); 

功能 说 明 : 批量 导入 Excel 的 sheet 内 容 。 

参数 fle: 指定 Excel 文件 的 “物理 路 径 ”( 需 用 引号 ， 且 包含 文件 扩展 名 ) 或 fileref， 

如 filename stdata "c:Xemp'state data.xls" . 

sheet: FX "SA sheet< AIRA sheet»"; 各 sheet 名 之 间 以 空格 分 隔 ，* 标 识 导 入 
所 有 sheet， 如 *|a b。 

outlib: 输出 逻辑 库 ， 默 认为 系统 默认 库 。 

outpre: 输出 数据 表 名 前 级 ， 默 认 无 。 

varnm=1: 定义 是 否 使 用 Excel 第 一 行 作为 变量 名 。 默 认 varnm=1， 使 用 Excel 第 一 行 作 
为 变量 名 ; varnm=0 时 ， 将 Excel 全 部 作为 数据 处 理 。 

range=: 定义 读 取 sheet 数据 的 范围 ， 默 认为 空 ， 读 取 所 有 数据 。range=al:c9 格式 时 读 取 
相应 范围 al:c9 内 的 有 效 数据 。 
例 : 选取 单个 单元 格 b2:b2， 右 下 角 单 元 格 e5:zzz99999《〈 赋 一 个 很 大 的 值 )。 
输出 Excel 各 sheet 对 应 的 数据 集 : &outlib..&outpre.sheet name. 
各 数据 集 市 变量 准备 结束 后 , 将 各 主体 数据 集 市 的 变量 按照 客户 编号 user id 和 月 份 纺 
month_nbr 进行 横向 合并 。 


由 


proc sql; 
create table input basic as select 
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from input basic 1 as a 
left join inpug basic 2 as b onb.user id=a.user id and b.month nbr-a.month nbr 


left join 
order by user id,month nbr; 


quit; 


成 关于 基础 变量 的 数据 集 INPUT BASIC， 表 头 结构 如 表 11-6 所 示 。 


Li 


dk 11-6 表 头 结构 


(4) 变量 衍生 
基于 INPUT BASIC 表 中 的 基础 变量 衍生 得 到 含 衍生 变量 的 表 INPUT_ DERIVED。 以 其 
FP 一 个 变量 var 的 衍生 为 例 ，SAS 代码 如 下 : 


H 


data input derived; 
set input basic; 
format var l-var 12; 
by user id month nbr; 
FERE var 对 应 的 数组 */ 


if first.user id then call missing(of var 1-var 12); 


array var ary[1:12] var l-var 12; 

retain var l-var 12; 

var ary[month nbr]-var; 
PRATER REN 

var max-max(of var l-var 12);/* 最 大 值 */ 

var min=min(ofvar l-var 12);/* 最 小 值 */ 

avg last 3mths=sum(of var_10-var_12)/3;/* 最 近 3 个 月 的 平均 值 */ 
Pri in 


if lastuser id then output; 


drop var month nbr; 


run; 


C5) 数据 抽样 

根据 观察 期 进行 排外 : 逾期 次 数 超过 3 次 、 呆 滞 及 呆账 客户 、 账 户 状 态 异 常客 户 等 。 
根据 表现 期 进行 排外 : 表现 期 销 户 的 客户 、 表 现 期 账户 状态 异常 的 客户 等 。 

采用 随机 抽样 ，70% 的 样本 用 于 建 模 ，30% 的 样本 用 于 样本 内 校 验 。 抽 样 的 程序 如 下 : 


data input train 
input test; 
set input derived; 
random nbr-uniform(123456); 
if random nbr>=0.3 then output input train; 
if random nbr«0.3 then output input test; 
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11.4.2 ”开发 模型 


变量 处 理 
(1) 变量 细 分 组 
变量 细 分 组 主要 是 对 连续 型 变量 进行 处 理 ， 按 照 一 定 的 步 长 将 变量 离散 化 。 例 如 ， 存 款 
余额 可 以 按照 每 500 元 的 步 长 进行 离散 化 ， 并 分 别 进行 各 分 组 的 WOE 值 。 
(2) 变量 粗 分 组 
借助 工具 软件 或 Excel 将 WOE 值 相 近 的 细 分 组 进行 合并 ,生成 粗 分 组 ， 并 计算 粗 分 组 的 
WOE 值 。 粗 分 组 过 程 通常 分 组 的 WOE 分 布 需 满 足 单 调 性 。 如 表 11-7 所 示 为 性 别 变量 的 粗 
分 组 结果 。 
表 11-7 ”性别 变量 粗 分 组 
性 别 好 US % 好 % 坏 woe train iv train 
缺失 615 515 5.98% 3.56% 0.5198 0.013 
女 4603 7056 44.75% 48.76% -0.0857 0.003 
男 5068 6901 49.27% 47.6894 0.0326 0.001 
fu 10286 14472 0.017 
缺失 268 219 6.24% 3.50% 0.5779 0.016 
女 1907 3003 44.39% 48.00% -0.0781 0.003 
男 2121 3035 49.3794 48.50% 0.0178 0 
合计 4296 6257 0.019 
变量 信息 值 如 表 11-8 所 示 。 
表 11-8 变量 信息 值 
变量 名 称 变量 标签 iv train iv test 
deposit bal 存款 余额 0.29207 0.25105 
sex 性 别 0.01655 0.0188 
通常 选择 IV 值 较 高 的 前 50 个 变量 进入 模型 。 
2. 模型 建立 
将 变量 的 WOE 和 权重 作为 模型 输入 ， 采 用 LOGISTIC 回归 ， 使 用 逐步 回归 的 方法 对 
变量 进行 筋 选 ， 最 终 得 到 一 组 模型 变量 及 回归 系数 。 回 归结 果 如 表 11-9 所 示 。 回 归程 序 
如 UR. 
proc logistic data-input train; 


model 


/selection-STEPWISE 


details 
outroc-ROC; 


response(event-' 1')-varl-var50 
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weight WEIGHT; 


run; 
a 11-9 回归 结果 
Parameter Estimate Standard error Wald Chi-Square Pr > ChiSq 
varl 1.6499 0.1428 133.434 «.0001 
var3 0.3905 0.0242 259.78 «.0001 
var5 0.7262 0.0914 63.1509 «.0001 


3. 评分 转换 


评分 的 分 值 可 以 根据 下 面 的 公式 计算 ， 最 后 生成 评分 卡 : 


Score - 28,8539 « (22 x woe; +b) + 513.561 


以 年 龄 变量 为 例 ， 评 分 值 如 表 11-10 所 示 。 


表 11-10 评分 值 


变量 名 称 TR OE 值 分 W 
缺失 48 
[21,26) 57 
age CEH) [26,35) 60 
[35,50) 63 
[50,max] 59 
4. 模型 评估 
模型 的 K-S 值 为 33.21， 对 应 的 评分 为 520 分 ， 如 图 11-12 所 示 。 


100 


80 


60 


40 


20 


T T 
450 500 550 


图 11-12 K-S fü 


模型 的 分 离 度 指标 为 0.61， 如 图 11-13 所 示 。 
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T-T-T-T-T—T—T—T—T—T—T——T—T—T—T—T——T—T——T——1——T————1-T 
450 500 550 


图 11-13 ”分离 度 


11.4.8 ”模型 应 用 


模型 开发 完成 以 后 ， 应 用 INPUT_TEST 数据 集 对 模型 进行 样本 内 校 验 ， 由 于 缺乏 样本 外 
数据 ， 故 省 略 样本 外 校 验 。 通 过 样本 内 校 验 比较 K-S 和 分 离 度 指 标 变化 不 大 ， 认 为 模型 稳定 。 

模型 验证 确认 以 后 ， 基 于 模型 开发 产品 营销 策略 形成 决策 树 ， 生 成 策略 结果 。 由 于 该 模 
型 针对 某 特 定 产 品 营销 ， 不 存在 周期 策略 问题 ， 仅 需 生成 一 次 策略 结果 供 业 务 使 用 。 在 业务 
执行 完成 后 ， 根 据 营销 效果 需 对 模型 进行 再 次 评价 和 经 验 总 结 。 
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第 12 章 ”高 级 应 用 技巧 


121 自动 变量 与 临时 变量 应 用 


12.1.1 自动 变量 N 与 ERROR 应 用 


PDV (Program Data Vector) 是 SAS 在 建立 数据 集 时 在 内 存 开辟 的 一 块 逻 辑 区 域 。 当 建 
立 数据 集 代 码 执行 时 , SAS 从 输入 缓冲 区 读 入 观测 到 PDV 中 或 通过 语句 在 PDV 中 生成 观测 ， 
并 在 PDV 中 对 变量 进行 其 他 操作 。 当 读 取 观测 到 PDYV 时 每 次 仅 读 入 一 条 记录 , SAS 会 在 PDV 
中 为 读 入 观测 变量 分 配 空间 ， 并 把 读 入 记录 的 具体 数值 赋 给 变量 ， 当 新 的 观测 读 入 时 变量 的 
数值 相应 的 会 被 更 新 ， 所 有 操作 完成 后 观测 被 输出 到 结果 数据 集中 ， 在 无 指定 操作 时 变量 的 
数值 不 会 被 清除 。 

自动 变量 是 SAS 在 执行 数据 操作 时 在 PDV 中 自动 生成 的 变量 ， 并 不 会 输出 到 结果 中 去 。 
自动 变量 记录 了 数据 处 理 的 相关 信息 , 记录 的 信息 非常 有 价值 , 可 以 通过 自动 变量 来 了 解 SAS 
进行 数据 处 理 的 过 程 或 利用 其 进行 其 他 复杂 的 数据 操作 。 

SAS 在 执行 DATA 步 过 程 时 , 在 PDV 中 生成 自动 变量 N 和 ”ERROR 。_N 初始 值 为 
1， 在 每 次 读 入 数据 观测 时 ， 数 值 自动 加 1， 由 此 可 见 N 代表 SAS 执行 DATA 步 过 程 中 重复 
执行 数据 读 取 的 次 数 ， 即 读 入 PDV 中 观测 的 条 数 。 ERROR. 默认 值 为 0， 当 数据 处 理 过 程 中 
过 到 错误 时 , 值 被 改写 为 1。 常 见 的 错误 类 型 有 数据 输入 错误 、 数 据 转 换 错误 、 数 据 格 式 不 匹 
配 、 分 母 为 0 等 。SAS 在 过 到 错误 时 ， 会 将 有 具体 的 错误 信息 输出 到 LOG 中 ， 可 以 在 LOG 中 
利用 _N 5 ERROR 迅速 定位 错误 所 在 的 位 置 并 查找 错误 产生 的 原因 。 
【 例 12.1】 通过 cards 语句 输入 新 增 金 额 newly 以 及 剩余 金额 remain 的 数值 ， 并 计算 新 
增 金 额 占 比 。 


/* ERROR 的 使 用 */ 
data newly pct; 


input newly remain; 
rate-newly/remain; 
v emor- error ; *_ ERROR 的 数值 ; 
ifv error-1 then message-"error"; 


cards; 

1000 10000 
2000 50000 
3000 0 
4000 10000 
5000 x 


run; 
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【程序 

1) a ART newly 及 remain 对 应 的 数据 。 
2) 计算 新 增 占 比 rate。 
3) 将 ERROR 赋值 给 变量 v_ ERROR. 
数据 步 结果 显示 如 表 12-1 所 示 。 


表 12-1 数据 步 处 理 结果 显示 


newly remain rate v ERROR message 
1000 10000 0.1 0 
2000 50000 0.04 0 
3000 0 1 ERROR 
4000 10000 0.4 0 
5000 1 ERROR 
日 志 : 


15  /* ERROR 的 使 用 */ 
16 data newly pct; 


17 input newly remain; 

18 rate=newly/remain; 

19 v error- error ;* error 的 数值 ; 
20 ifv error-1 then message="error"; 
21 cards; 


NOTE: 检测 到 0 为 除数 ， 位 置 : fT 18 7j 15. 


RULE: 
-二 -1 a, D —— P i CE ER 
24 3000 0 


newly-3000 remain=0 rate-. v error-1 message-error ERROR -1 N =3 
NOTE: 在 第 26 (T. 58 11—11 列 中 有 对 “remain” 无 效 的 数据 。 
26 5000 x 
newly-5000 remain-. rate-. v error-1 message-error ERROR -1 N =5 
NOTE: 缺失 值 的 生成 是 对 缺失 值 执行 操作 的 结果 
指定 每 个 位 置 的 方式 :〈 次 数 )〈 行 : 列 )。 
1， 位 置 : 18:15。 
NOTE: 在 以 下 位 置 无 法 执行 算术 和 运算。 运算 结果 已 设 为 缺失 值 。 
每 个 位 置 的 指定 方式 :〈 次 数 )〈 行 : 列 )。 
1， 位 置 : 18:15。 
NOTE: 数据 集 WORK.NEWLY PCT 有 5 个 观测 和 5 个 变量 。 
NOTE: “DATA 语句 ”所 用 时 间 (总 处 理 时 间 ): 
实际 时 间 0.01 f» 
CPU 时 间 0.01 f» 
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【日 志 解 读 】 
1) N =3 时 ，_ERROR =1， 即 第 三 条 观测 出 现 错误 ， 此 观测 中 remain=0 无 效 ， 因 为 0 
不 能 作为 分 母 。 
2) N =5 Hf, ERROR =1， 即 第 五 条 观测 出 现 错误 ， 此 观测 中 remain. 的 输入 值 有 误 ， 
输入 值 为 x， 非 数值 型 输入 数据 。 
【 例 12.2】 对 例 12.1 进行 改造 ， 在 数据 集 newly pet 中 筛选 新 增 金 额 大 于 2000 且 小 于 
5000 的 记录 。 


Data gt 2000 1; 
Set newly pct; 
Where 2000<newly<5000; 
id- n ; 
keep id newly remain; 
run; 


gt 2000 1 结果 显示 如 表 12-2 所 示 。 


表 12-2 gt 2000_1 对 应 结果 


newly remain id 
3000 0 1 
4000 10000 2 


data gt 2000 2; 
set newly pct; 
if 2000<newly<5000; 
id- n ; 
keep id newly remain; 
run; 


gt 2000 2 显示 结果 如 表 12-3 所 示 。 


表 12-3 gt 2000 2 对 应 结果 


newly remain id 
3000 0 3 
4000 10000 4 


通过 以 上 两 种 方法 的 结果 对 比 可 以 看 出 ， 变 量 id 的 有 具体 数值 并 不 一 致 ， 原 因 在 于 where 
语句 在 将 数据 读 入 PDYV 之 前 执行 ， 而 if 语句 在 PDV 中 执行 。 方 法 一 中 的 where 语句 先 判断 
newly 是 否 大 于 2000 且 小 于 5000， 然后 将 观测 读 入 PDV 中 ， 符 合 条 件 的 第 一 条 观测 id 为 1， 
同 理 第 二 条 观测 id 为 2。 方 法 二 中 if EB) E TETUR EUN. PDV 之 后 执行 , 第 三 条 和 第 四 条 观测 
符合 条 件 ， 而 其 id 数值 分 别 为 3 和 4。 
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12.1.2 ”临时 变量 FIRST. 变 量 与 LAST. 变 量 的 应 用 


SAS 执行 SORT 过 程 时 ， 在 按 变量 排序 后 的 结果 中 会 生成 临时 变量 FIRST. AER LAST. 
变量 ， 每 一 个 排序 变量 (BY 变量 ) 都 会 生成 这 样 两 个 临时 变量 。FIRST. 变 量 记 录 在 每 一 个 
BY 组 中 ， 观 测 是 否 是 第 一 条 观测 ;而 LAST. 变 量 记录 在 每 一 个 BY 组 中 ， 观 测 是 否 是 最 后 一 
条 观测 。 其 中 ，BY 组 是 排序 变量 的 任 一 个 值 的 所 有 观测 构成 的 组 ， 如 果 有 多 个 排序 变量 ， 
BY 组 是 当前 变量 在 之 前 变量 取 值 下 的 任 一 值 的 所 有 观测 构成 的 组 。 如 果 观 测 为 BY 组 中 的 第 
一 条 观测 ， 则 FIRST 变 量 的 值 为 1， 否则 为 0; 如 果 观 测 为 BY 组 的 最 后 一 条 观测 ， 则 LAST. 
量 的 值 为 1， 否则 为 0。 
【 例 12.3】 某 小 组 员工 入 职 后 每 月 的 销售 额 记录 sales， 请 找 出 每 位 员工 首 月 的 销售 额 。 
其 中 id 为 员工 编号 ，year 为 年 份 ，month 为 月 份 ，sales 为 销售 额 。 

数据 集 sales 数据 信息 如 表 12-4 所 示 。 


x 


表 12-4 数据 集 sales 数据 信息 


id year month sales 
1001 201 9 55 
1001 201 10 66 
1001 201 11 69 
1001 201 12 98 
1001 2012 1 96 
1002 201 9 69 
1002 201 10 72 
1003 201 9 58 
1003 201 12 79 
1003 2012 1 76 
1004 201 10 59 
1004 201 11 58 
1005 201 11 99 

先 ， 通 过 下 面 的 程序 来 认 知 FIRST. 变 量 与 LAST 变 量 。 


proc sort data-sales; 
by id year month; 


data sales info; 
set sales; 
by id year month; 
id first-first.id; 
id last-last.id; 
year first-first.year; 
year last-last.year; 


run; 
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【程序 解读 】 


1) 通过 调用 


3) 将 first.year 值 赋 给 变 


E 


FH 


year first, Jf last.year 


SORT 过 程 对 数据 集 sales 按照 员工 编 
2) 将 first.id 值 赋 给 变量 id first, f lastid 值 赋 给 


结果 显示 的 sales info 信息 如 表 12-5 所 示 。 


号 、 年 份 、 月 份 排序 
id last. 
直 赋 给 year last. 


表 12-5 sales info 数据 集 信 息 显 示 


o 


id year month sales id first id last year first year last 
001 2011 9 55 1 0 1 0 
001 2011 10 66 0 0 0 0 
001 2011 11 69 0 0 0 0 
001 2011 12 98 0 0 0 1 
001 2012 1 96 0 1 1 
002 2011 9 69 1 0 0 
002 2011 10 72 0 1 0 1 
003 2011 9 58 1 0 0 
003 2011 12 79 0 0 0 1 
003 2012 1 76 0 1 
004 2011 10 59 1 0 0 
004 2011 11 58 0 0 1 
005 2011 11 99 1 1 
由 结果 数据 可 以 看 出 , id first 和 id. last 标示 了 观测 是 否 是 id 所 属 观测 组 中 的 第 一 条 观测 
与 最 后 一 条 观测 。 而 year first 和 year last 标示 了 在 id 当前 取 值 下 ， 观 测 是 否 是 year 所 属 观 
测 组 中 的 第 一 条 观测 与 最 后 一 条 观测 。 
如 本 案例 中 结果 中 的 第 五 条 观测 ， 观 测 为 id=1001 下 所 对 应 有 观测 的 最 后 一 条 记录 ， 故 


id last-1; 同时 ， 观 测 为 id=1001 且 year-2012 下 所 有 观测 的 唯 


H. year last=1。 


【 例 12.4】 对 例 12.3 ttg po, FRH 


Proc 


by 


run; 
data 


set 
by 


sort data=sales; 


first. sales; 


sales; 


if firstid 


run; 


【程序 解 


2) WR id first 等 于 1 即 观测 为 员工 的 首 条 观测 ， 则 输出 结果 。 
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ii] 
1) SORT 过 程 将 每 位 员工 的 名 


id year month; 


id year month; 


then output; 


iR 


xm 


上 每 位 员工 


RZE 


条 记录 的 销售 额 。 


份 、 月 份 排序 ， 默 认为 升序 。 


记录 ， 故 year first-l 


数 


居 集 first sale 结果 显示 如 表 12-6 所 示 。 


表 12-6 first sale 数据 集 数 据 显 示 


【 例 


id year month Sales 
1001 2011 9 55 
1002 2011 9 69 
1003 2011 9 58 
1004 2011 10 59 
1005 2011 11 99 


12.5] 对 例 12.3 进行 改造 ， 求 每 位 员工 的 总 销 


IR 
2 
g 


Proc sort data=sales; 
by id year month; 
run; 
data sales sum; 
set sales; 
by id year month; 
retain sales sum; * 记 录 总 销售 额 ; 
/*if-else 语句 实现 累加 效果 */ 
If firstid then sales sum=sales; 


else sales sum-sales sum-sales; 
/# 输 出 每 个 ID 的 最 后 一 条 记录 ，sales_sum 即 为 总 销售 额 */ 
if lastid then output; 


keep id sales sum; 


run; 
【程序 解读 】 


1) 


3) 
4) 


对 数据 集 sales 按照 员工 编号 、 年 份 、 月 份 排序 


if-else 语句 实现 累加 效果 。 
将 每 位 员工 的 最 后 一 条 记录 输出 ，sales sum & 127 


为 总 销售 额 。 


数 


12.2 


12.2.1 
1. 


HÆR sales sum 数据 显示 如 表 12-7 所 示 。 


SAS 索 引 应 用 


索引 简介 
索引 的 定义 


索引 是 SAS 为 了 方便 直接 访问 数据 集 的 特定 观测 而 生成 一 个 附加 性 文件 ， 六 


id sales_sum 
1001 384 
1002 141 
1003 213 
1004 117 
1005 99 


数据 集 sales_sum 数据 信息 显示 


的 必须 组 成 部 分 。 索 引 由 单个 变量 或 多 个 变量 组 成 ， 默 认 按 升序 次 序 记录 变量 值 ， 


量 值 对 应 观测 所 在 的 位 置 。 换 名 话说， 索引 具有 通过 变量 值 定位 观测 所 在 


— 


Y 置 的 功能 。 
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索引 好 比 是 一 本 书 的 目录 ， 可 以 帮助 读者 快速 定位 特定 章节 所 在 的 页 数 。 在 访问 数据 时 ， 


利用 索引 可 以 很 好 地 获取 特定 观测 所 在 的 位 置 ， 


提高 数据 访问 速度 和 程 


序 的 执行 效率 。 假 如 


想 从 一 个 记录 了 公司 10000 名 员工 的 信息 的 数据 集中 找 出 编号 为 00898 的 员工 的 信息 ， 在 没 


有 索引 的 情况 下 ，SAS 会 按 数 据 存储 的 顺序 逐条 读 取 观 测 ， 
直到 所 有 的 观测 访问 完毕 最 后 将 符合 条 
建立 在 员工 号 码 上 的 索引 , 通过 索引 可 以 直接 找到 员工 号 等 
直接 读 取 数据 输出 结果 ， 


一 个 数据 集 ， 可 以 


SIFE, SAS 2H 
动 更 新 。 


I 
EJ 


FRU Rn H 


2. 索引 的 优点 


索引 记录 了 变量 值 所 属 观 测 所 在 的 位 置 ， 在 以 下 情况 下 使 ) 


速度 : 


并 不 需要 读 取 数 据 集 
SAS 可 以 在 生成 数据 集 的 时 候 建 并 索引 ， 也 可 以 为 已 经 存在 的 数据 身 
建立 一 个 索引 或 者 多 个 索引 。 索 引 类 型 分 为 简 和 
严 它 当做 数据 集 的 一 部 分 。 当 观测 增加 或 删 减 以 及 变量 值 改变 时 ， 索 引 会 自 


F 00898 的 所 有 观测 所 在 的 位 置 ， 
FP 所 有 的 观测 。 


判断 观测 中 员工 号 是 否 是 00898， 
每 条 观测 都 会 被 读 取 一 次 。 如 果 存 在 


建立 索引 。 针 对 每 
# 索 引 或 复合 索引 。 如 果 索 


j 索 引 可 以 提高 数据 访问 


1) 索引 在 执行 Where 语句 读 取 数 据 集 时 ,会 提供 快速 高 效 的 数据 访问 速度 。 需 要 注意 的 


是 ， 并 不 是 每 次 执行 Where 语句 时 者 
接 访问 数据 集 的 时 

例如 ， 从 1 万 个 ID 的 100 万 条 i 
查询 时 间 为 0.2s， 而 不 存在 建立 在 ID 上 的 索引 时 查询 时 间 为 1s。 对 了 
没有 太 大 的 提升 ， 但 是 对 于 


} 间 来 判断 是 否 使 


在 对 数据 访问 速度 } 
索引 的 使 用 会 大 大 减少 数据 读 


2) 索引 在 执行 BY 语句 时 ， 
存储 观测 的 顺序 如 何 。 在 使 


使 用 ， 


并 且 程 序 会 报错 。 


会 使 用 索引 ，SAS 默认 情况 下 会 比较 使 
] 索 引 。 


索引 访问 和 直 


己 录 中 查找 一 个 ID 的 信息 ， 存 在 建立 在 ID 上 的 索引 时 ， 


取 时 间 。 


从 一 个 很 大 的 数据 集中 抽 昌 


会 使 结果 按照 索引 


【 例 12.6】 索引 对 BY 语句 的 影响 。 


PE id 上 建立 索引 */ 
data testfile (index-(id)); 
input id $ amt, 


cards; 
101 50 


109 


100 


112 30 
102 69 
103 88 
120 36 


run; 


data test by idx; 


set 
by 


run; 
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testfile; 
id; 


Pb 变量 值 的 顺序 返回 


小 的 数据 集 ， 索 引 的 存 


区 极 少 的 观测 时 ， 


观测 ， 不 管 数 据 集中 
] SORT 步 时 ， 如 果 对 索引 变量 排序 ， 默 认 情况 下 索引 并 不 会 被 


程序 执行 后 结果 显示 数据 信息 如 表 12-8 所 示 


表 12-8 test bu idx 数据 集 信 息 显 示 


id amt 
101 50 
102 69 
103 88 
109 100 
112 30 
120 36 


【结果 解读 】 


因为 存在 建立 在 变量 id 上 的 索引 ， 并 


变量 id 升序 次 序 〈 索 引 中 id 的 顺序 ) 返回 观测 。 
3) 索引 在 使 用 SQL 拼接 数据 集 时 ， 会 提高 数据 查询 效率 。 当 使 用 SQL 来 拼接 数据 时 ， 


可 以 根据 索引 变量 来 直接 匹配 观测 。 


索引 虽然 可 以 减少 定位 观测 的 时 间 ， 以 提 


Ei, 不 


定 是 否 需 要 生成 索引 时 ， 必 须要 考虑 


3. 认识 索引 文件 


索引 文件 是 与 SAS 数据 文件 相关 


联 并 具有 相同 文人 


文件 只 有 一 个 索引 文件 ， 所 有 的 索引 都 存放 在 唯一 的 索引 文件 中 。 


在 索引 文件 中 ， 索 引 变 量 的 每 一 个 值 对 应 着 


变量 值 所 属 观测 在 数据 文件 中 的 位 置 。 表 12-9 所 示 为 索引 文件 的 形式 。 
表 12-9 索引 文件 的 形式 


变量 dH 记录 标示 符 
111 1,26 
222 2,5,49 
333 3,51 
444 6,9,25,95 
555 4,12 
7,8,85 


当 SAS 处 理 数据 查询 时 ， 如 执行 一 个 where 语句 ， 首 先 使 


一 个 或 多 个 记录 标示 符 ， 记 录 标 示 符 代表 


EF 名称 的 SAS 索引 型 文件 ,每 个 数 寺 


着 


程序 中 的 BY 语句 引用 了 索引 变量 ， 故 结果 按照 


高 数据 集 抽 取 的 速度 ， 特 别 是 对 于 从 很 大 的 数 
据 集中 抽取 少量 观测 时 效果 非常 明显 ， 但 是 索引 的 生成 、 存 储 以 及 维护 都 存在 成 本 。 当 不 确 
此 带 来 的 资源 消耗 和 效率 提升 之 间 的 平衡 。 


=] 


十 


j 二 分 法 在 索引 文件 中 查找 定 


位 符合 条 件 的 变量 值 ， 然 后 根据 变量 值 对 应 的 记录 标示 符 读 取 相 应 的 观测 。 如 果 变 量 值 有 多 


个 记录 标示 符 ，SAS 按照 记录 标示 符 的 顺序 读 取 观测 。 


索引 分 为 简单 索引 和 复合 索引 。 在 创建 索引 时 ， 需 要 指定 索引 名 称 和 创建 索引 的 变量 
通常 创建 索引 的 变量 被 称 为 主键 ， 不 能 为 同一 数据 集 创 建 同 名 索引 。 
简单 索引 是 最 常见 的 索引 。 它 是 由 单一 变量 生成 的 索引 ， 变 量 可 以 为 数值 型 或 


iN 


Iu 5A. 型 


当 创建 简单 索引 时 ，SAS 默认 用 变量 的 名 称 作为 索引 的 名 称 。 
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字符 型 。 


复合 索引 是 由 两 个 或 两 个 以 上 变量 联合 生成 的 索引 ， 变 量 可 以 是 数值 型 、 字 符 型 或 两 者 
混合 使 用 。 当 创建 复合 索引 时 ， 需 要 为 索引 指定 唯一 的 索引 名 称 。 
索引 类 型 的 选择 ， 主 要 根据 数据 访问 的 具体 形式 来 确定 。 如 果 经 常 使 用 某 个 主键 来 访问 


数据 ， 应 该 建立 单一 索引 ， 而 经 常 使 用 多 个 主键 来 访问 数据 8 
12.2.2 ”索引 的 创建 与 删除 
1. 索引 的 创建 


对 需要 建立 复合 索引 。 


TE DATA 7E, PROC 步 和 SQL 过 程 中 都 可 以 创建 索引 。 仓 
1) DATA 步 中 使 用 INDEX= 选 项 创建 索引 
使 用 INDEX= 选 项 创建 索引 的 一 般 形式 如 下 : 


Lens 


SAS-data-file-name(INDEX-( 


1 建 索引 的 方法 主要 有 以 下 几 种 : 


index-specification-1</option>*…*index-specification-n</option>) 


index-specification 的 语法 如 下 : 
simple index : the name ofthe key variable 
composite index : index-name(list of key variables) 


其 中 ， 尖 括号 内 为 选项 语句 。 选 项 语句 中 经 常 使 用 的 关键 字 有 UNIQUE 5 NOMISS. 


UNIQUE 要 求 创建 索引 的 变量 的 数值 必须 是 唯一 的 ， 不 允许 如 


EE 复 值 的 存在 ,否则 程序 会 报错 ， 


索引 也 不 会 被 创建 。NOMISS 表示 索引 中 不 会 包含 变量 的 缺失 值 ， 如 果 变 量 值 为 缺失 ， 则 索 


引 不 能 直接 获取 所 属 观测 所 在 的 位 置 。 
【 例 12.7】 创建 索引 并 输出 索引 创建 信息 。 
人 创建 单一 索引 id、 复 合 索引 id type*/ 


Data idx data(index-(id id type-(id type))); 
Set id amt; 


run; 
PORE MES EM HH 
proc contents data-idx data; 


quit; 


输出 的 索引 信息 如 图 12-1 所 示 。 


按 字 母 排序 的 索引 和 属性 列表 


唯一 值 
# ”索引 个 数 变量 
1 id B 
2 id type 7 id type 
图 12-1 查看 idx data 索引 信息 


(2) 使 用 PROC DATASETS 创建 索引 
DATASETS 步 创 建 索引 的 一 般 形 式 如 下 : 


PROC DATASETS LIBRARY-libref, 
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MODIFY SAS-data-file-name; 
INDEX CREATE index-specification-n</option>; 
QUIT; 


参考 代码 如 下 : 


proc datasets lib=work; 

modify  testfile; 

index create type/nomiss; * 单 一 索引 ; 

index create id type-(id type)/unique; * 复 合 索引 ; 
quit; 


(3) 使 用 PROC SQL 创建 索引 
PROC SQL 创建 索引 的 一 般 形 式 如 下 : 


PROC SQL; 
CREATE INDEX index-name ON  table-name(columm-name-1,:*::*- ,columm-name-n); 
QUIT; 
参考 代码 如 下 : 
proc sql; 


create index id on test file(id); 
create index id type on test file(id;type); 
quit; 
2. 索引 的 删除 
TE DATA zb. PROC 步 和 SQL 中 都 可 以 删除 索引 。 删 除 索 引 的 方法 主要 有 以 下 几 种 : 


(1) DATA 步 删除 索引 
当 使 用 DATA 步 创 建 同 名 数据 集 时 ， 原 有 的 索引 会 被 删除 。 


参考 代码 如 下 ; 
data test; 
set test; 
run; 


(2) 使 用 PROC DATASETS 删除 索引 
DATASETS 步 删除 索引 与 创建 索引 相似 ， 形 式 如 下 : 


PROC DATASETS LIBRARY-libref; 
MODIFY . SAS-data-file-name; 
INDEX DELETE  index-name 

QUIT; 


参考 代码 如 下 : 


proc datasets lib=work; 
modify  testfile; 
index delete type id type; 
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quit; 


(3) 使 用 PROC SQL 删除 索引 
PROC SQL 删除 索引 的 语句 形式 如 下 : 


DROP INDEX index-name FROM  table-name; 


index id from test file; 


PROC SQL; 
QUIT; 
参考 代码 如 下 : 
proc sql; 
drop 
quit; 


12.2.3 ”索引 的 应 用 


索引 的 使 用 会 减少 数据 访问 的 时 间 以 提高 程序 的 运行 效率 。 在 默认 情况 下 ，SAS 在 执行 
代码 时 首先 会 判断 表达 式 是 否 可 引用 已 存在 的 索引 ， 并 在 可 引用 的 索引 中 选择 最 优 的 索引 ， 


然后 比较 使 用 索引 和 不 使 用 索引 读 取 数 据 的 时 间 ， 最 后 确定 是 否 使 用 索引 来 读 取 数据 。 在 纺 
写 代码 时 ， 要 使 用 合适 的 表达 式 语句 ， 让 SAS 来 识别 可 使 用 的 索引 。 


SAS 执行 where 语句 时 ， 会 首先 判断 where 语句 中 是 否 包含 单一 索引 中 的 主键 或 复合 索 
引 的 首 变量 ， 确 定 可 引用 的 索引 ， 然 后 在 可 引用 的 索引 中 选择 满足 条 件 最 多 且 提 供 观 测 数量 
最 少 的 索引 。where 语句 可 能 包含 多 个 条 件 ， 每 个 条 件 中 可 能 包含 多 个 索引 变量 ， 但 是 SAS 
最 终 在 可 引用 的 索引 中 会 选择 一 个 最 优 的 索引 作为 使 用 对 象 。 

【 例 12.8】 认 知 SAS 在 可 引用 的 索引 中 选择 最 优 索 引 。 


data Score 
input 


cards; 


(index-(team id)); 
team $ id $ score; 


a 101 99 
a 102 86 
b 103 68 
b 104 63 
b 105 89 
c 101 73 


run; 


options msglevel-i; 


proc print 
where 

run; 

proc print 
where 

run; 


日 志 显 示 如 图 
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data=score; 
team-'a and id='102'; 


data=score; 
team='c' and id='101'; 


12-2 所 示 。 


295 data score(indexz(team id)): 
296 input team $ id $ score; 
297 cards; 


NOTE: 数据 集 Oe SPORE 有 6 个 观测 和 3 个 变量 。 
NOTE: BÆ AARS] i 
NOTE: Lise fe uS] t n 


NOTE: "DATA 语句 ” Vei 总 处 理 时 间 ) : 
实际 时 间 0.01 种 
CPU 时 间 0.01 秒 
304 
305 run; 


308 options msglevel-i; 
307 s MA datazsçore; 
team=” 


308 
INFO: ws res] id BT WERE ELS 
303 run; 
NOTE: 从 数据 集 nt Age A " im 
WHERE (te dtid 
NOTE: “ PROCEDURE ue b Big € dinem 3 
实际 时 间 E 


CPU 时 间 $ 01 Er 


310 proc print, dataz sd 
where team-" 


311 
INFO: 选择 了 索引 team EE WERE ien, 
312 run; 


NOTE: Men WORK. rre TT * i'm 
WHERE (team-'c') a Har 
NOTE: “PROCEDURE PRINT b Bia c 总 让 理 时 间 ) 
实际 时 间 


CPU 时 间 $% 0 


图 12-2 ”日志 窗口 显示 信息 


【日 志 解 读 】 
1) 为 数据 集 score 创建 单一 索引 team 和 id。 
2) PRINT 过 程 中 ， 在 执行 where team-'a' and id='102' 时 ，team='a' 有 两 条 观测 ， 而 id='102' 
有 一 条 观测 ，SAS 最 终 选 择 索 引 id 来 读 取 数 据 ; 
3) PRINT 过 程 中 ， 在 执行 where team-'c' and id='101 时 ，team='a' 有 一 条 观测 而 id='102' 
有 了 两 条 观测 ，SAS 最 终 选择 索引 team 来 读 取 数据 。 
通过 比较 使 用 索引 和 不 使 用 索引 读 取 数据 的 时 间 后 ，SAS 可 能 选择 不 使 用 索引 来 处 理 
数据 。 默 认 情 况 时 ，SAS 自行 选择 where 语句 是 否 使 用 索引 。 在 编写 代码 时 ， 可 以 使 用 
IDXWHERE= 选 项 来 强制 where 语句 中 使 用 可 引用 的 索引 。 当 使 用 IDXWHERE=YES 选项 
时 ，SAS 强制 where 语句 使 用 索引 ; 而 使 用 IDXWHERE=NO 选项 时 ，SAS 强制 where 语句 
不 使 用 索引 。 
【 例 12.9】 IDXWHERE= 选 项 的 使 用 。 
data score(index=(id)); 
input id $ score; 
cards; 
101 99 
102 86 
103 68 


104 63 
105 61 
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run; 

options msglevel=i; 

Pra f FH XR S 

Proc print data-score (idxwhere-yes); 
where id in(103',105',107; 
title "With idxwhere-yes"; 


run; 

PESE ANE R S8 

proc print data-score (idxwhere-no); 
where id in(103',105',107; 
title "With idxwhere-no"; 


run; 
/*SAS 自行 选择 是 否 使 用 索引 */ 
proc print data=score; 
where id in(103','105",'107"); 
title "default"; 


run; 


日 志 显 示 如 图 12-3 所 示 。 


223 options miles 


024 «seb RSS n/ 

225 proc print data= erare ben, yes): 

226 where id in (103°, 1); 

INFO: 数据 集 选 项 0 | Where 子 句 处 理 使 用 索引 , 而 非 顺 序 传递 。 
INFO: 选择 了 索引 id 用 于 WHER Tet 

227 title "With Mi E ue E 

228 run; 


NOTE: 从 数据 集 WORK.SCORE. MT a An 
WHERE id in ( 103^, Ud 

NOTE: “PROÇEDURE PRINT” Ama E 总 处 理 时 间 ) : 
实际 时 间 0.01 f^ 
CPU 时 间 0.01 f^ 


229 95 时 制 个 使 用 索引 87 


230 proc print ea Teo le nol: 


231 where id in (103^, T 
INFO: 数据 集 选 项 (DihERE-i) LE hers 子 句 处 理 使 用 数据 的 顺序 传递 ， 而 非 索引 。 
232 title "With idxwherezno"; 
233 run; 
NOTE: 从 数据 集 WORK, Es etd E DM 

WHERE id in (103 9 à 
NOTE: ~“ PROCEDURE — Lou SAMPE) : 

实际 时 间 0 $» 
CPU 时 间 i 00 秒 


234 ”SAS 自行 选择 是 否 使 用 索引 


235 proc print a 


236  .. where id giat 105,7 107^); 
INFO: 选择 了 索引 id 用 于 WERE AUI, 
237 title "default": 


238 run; 


NOTE: 从 数据 集 WORK . SCORE. MT 4 2 
WHERE id in (^103* V à 

NOTE: “PROCEDURE PRINT" sn cg 总 处 理 时 间 ) : 
实际 时 间 0.00 $^ 

CPU 时 间 0. 00 秒 


图 12-3 日志 显示 信息 
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【日 志 解 读 】 

1) IDXWHERE=YES 时 ，SAS 强制 where 语句 使 用 索引 。 

2) IDXWHERE=NO 时 ，SAS 强制 where 语句 不 使 用 索引 。 

3) 默认 情况 时 ，SAS 自行 选择 where 语句 是 否 使 用 索引 。 示 例 中 SAS 选择 了 使 用 索引 
ID 来 优化 查询 。 
在 where 语句 中 ， 以 下 条 件 表达 式 形式 会 引用 存在 的 索引 。 
D 比较 运算 符 、IN 操作 符 : 


where age=25; 
where score gt 85; 
where id in(201','302"; 


© NOT 操作 符 : 
Where id not in(501',9025; 
© 特定 操作 符 ， 如 CONTAINS. LIKE, IS MULL. BETWEEN: AND 等 。 


where name contains 'Jim'; 
where age between 25 and 28; 
where name like "%Tom "; 


© 特定 函数 TRIM 5 SUBSTR, fij SUBSTR 函数 时 需要 从 首位 抽取 并 且 抽 取 长 度 要 
小 于 等 于 变量 的 长 度 。 


where trim(lastname)='Jerry'; 
where  substr(firstname,1,1)—J'; 


SAS 程序 中 不 使 用 索引 的 情况 如 下 : 

1) DATA zb H IF 语句 。 

2) SAS 判断 需要 读 取 所 有 观测 才能 满足 where 条 件 时 。 
3) SAS 判断 读 取 所 有 观测 比 使 用 索引 访问 数据 速度 更 快 。 
4) 不 存在 任何 索引 满足 数据 查询 。 
5) where 语句 中 不 规范 的 表达 式 。 

6) where 语句 中 使 用 除 TRIM 与 SUBSTR 之 外 的 函数 。 


12.3” 自 定义 FORMAT 格 式 应 用 


FORMAT 可 以 格式 化 数值 或 字符 的 输出 格式 ， 使 输出 结果 更 易于 阅读 或 便于 统计 ， 
FORMAT 也 可 以 指定 变量 以 特定 格式 参与 运算 。SAS 自 带 非常 丰富 的 数值 型 、 日 期 型 及 字符 
型 格式 ,用户 也 可 以 自 定 义 FORMAT 格式 并 保存 在 永久 数据 库 中 以 备 下 次 使 用 。 用 户 自 定义 
f] FORMAT 格式 ， 在 形式 上 具有 灵活 性 ,在 内 容 上 具有 丰富 性 ， 在 数据 处 理 时 可 以 关联 数据 
或 筛选 数据 ， 减 少 SORT 与 MERGE 的 使 用 ， 提 高 程序 的 运行 效率 。 

【 例 12.10】 假设 目前 存在 两 个 数据 集 ， 其 中 一 个 记录 了 销售 级 别 及 对 应 的 佣金 比例 ， 
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男 一 个 记录 了 上 半年 每 位 员工 的 销售 级 别 及 销售 金额 ， 计 算 每 位 员工 的 佣金 金额 。 


旋 佣 金 比 例 */ 
Data grade rate; 


Input grade$ rate; 
cards; 

A 0.10 

B 0.13 

C 0.15 

D 0.18 

E 0.20 

F 0.25 


run; 


PABBISEBIUS 


Data sales amt; 


input id $ grade $ sales amt; 
cards; 

101 A 110 
102 B 102 
103 C 132 
104 D 114 
105 E 150 
106 F 168 
111 A 160 
112 B 122 
123 C 138 
124 D 125 
108 E 156 
109 F 118 


, 


run; 


/# 建 立 FORMAT*/ 
proc sort data-grade rate nodupkey; 
by grade; 
run; 
data fmt rate; 
set grade rate; 
start-grade; 
label-rate; 
type-'c; 
fmtname-'grd rate'; 
keep start label type fmtname; 
run; 
proc format cntlin-fmt rate; 
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run; 


MIREL 
data cms amt; 
set sales amt; 
rate-put(grade,$grd rate.); 
cms amt-sales amt*rate; 
run; 
【程序 解读 】 
1) 通过 PROC FORMAT 将 佣金 比例 数据 集 定义 为 FORMAT 格式 ， 相 当 于 创建 GRADE 
Hj RATE 的 对 应 关系 。 需 要 注意 的 是 ， 变 量 GRADE 不 能 有 重复 值 。 
2) 通过 PUT 函数 在 FORMAT 格式 中 找到 GRADE 对 应 的 RATE。 
3) 计算 佣金 金额 。 
结果 如 表 12-10 所 示 。 


表 12-10 cms amt 数据 集 信息 


id grade Sales_amt rate cms amt 
01 A 110 0.1 11 
02 B 102 0.13 13.26 
03 C 132 0.15 19.8 
04 D 114 0.18 20.52 
05 E 150 0.2 30 
06 F 168 0.25 42 
11 A 160 0.1 16 
12 B 122 0.13 15.86 
23 C 138 0.15 20.7 
24 D 125 0.18 22.5 
08 E 156 0.2 312 
09 F 118 0.25 29.5 


上 例 中 将 销售 级 别 对 应 佣金 比例 数据 集 定义 为 FORMAT 格式 ,在 DATA 步 中 调用 格式 来 
获取 佣金 比例 并 计算 佣金 。 代 码 中 并 没有 将 两 个 数据 集 首先 排序 然后 拼接 ， 减 少 了 排序 数据 
集 消耗 的 时 间 。 

【 例 12.11】 接 上 例 ， 查 找 佣金 比例 为 0.2 的 员工 。 


/*&£ Y. FORMAT*/ 

Proc sort data-grade rate nodupkey; 
by grade; 

run; 

data grade rate; 
set grade rate; 
start-grade; 


347 


label-rate; 

type-i; 

fmtname-'grade rate"; 

keep start label type fmtname; 
run; 
proc format cntlin-grade rate; 


run; 


入 筛选 佣金 比例 等 于 0.2 的 员工 * 
Data id sub; 
set sales amt; 


— 


where input(grade,grade rate.)-0.2; 


run; 


【程序 解读 】 


1) 首先 创建 FORMAT 格式 ，TYPE 选项 与 上 例 中 的 并 不 一 致 ， 本 例 中 为 1， 原 
例 中 FORMAT 格式 需要 用 在 where 语句 的 INPUT 函数 中 。 


可 查阅 SAS 帮助 。 
2) 通过 where 语句 判断 条 件 直接 抽取 数据 。 


办 在 于 本 
关于 TYPE 选项 的 详细 使 用 情景 


通过 以 上 两 个 例子 可 以 看 出 , 在 数据 查询 过 程 中 ， 自 定义 FORMAT 格式 的 应 


j 可 以 实现 


关联 信息 或 筛选 数据 的 作用 , 避免 数据 拼接 过 程 中 多 次 使 用 SORT 与 MERGE. 在 对 比较 大 的 
数据 集 操作 时 ， 可 以 大 大 减少 程序 运行 时 间 提 高 数据 处 理 效率 。 在 实际 操作 时 ， 经 常 将 参数 
表 或 者 小 数据 集 定义 为 FORMAT 格式 , 在 对 其 他 数据 集 操 作 时 引用 自 定义 的 FORMAT 格式 。 


12.4 HASH 对 象 的 应 用 


个 数据 集 之 间 的 拼接 ， 提 高 数据 查询 的 效率 。HASH 对 
与 更 新 ， pur a 
SS un DR NEL AS 


8 不 但 可 以 快速 有 效 地 检索 和 读 取 数 


居 ， 而 且 可 以 实现 多 


象 相当 于 一 张 行列 表 ， 在 内 存 中 存储 


组 成 。 在 DATA 2b tfr] 


FP 可 以 直接 通 


象 中 的 信息 变量 输出 到 结果 中 去 ， 在 


DATA 步 结 束 后 HASH 对 象 失效 。 下 面 来 简单 的 认识 
定义 HASH 对 象 主要 由 以 下 步骤 组 成 : 
1) 声明 HASH 对 象 。 相 关 的 语法 如 下 : 


declare hash myhash; 
myhash- new hash(); 


下 如 何 定义 一 个 HASH 对 象 。 


其 中 ，declare 为 关键 字 ，myhash 为 定义 的 HASH 对 象 的 名 称 ， 用 户 可 根据 实际 情况 来 


命名 HASH 对 象 。 或 者 简化 为 
declare hash myhash(); 


2) 初始 化 HASH 对 象 。 相 关 的 语法 如 下 : 


Declare hash object name(argument tag-1 : value-1 
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<, ..argument tag-n: value-n>); 
OR 
object name - new hash(argument tag-1: value-1 


<, ..argument tag-n: Value-n>); 


其 中 经 常 使 用 的 参数 标签 如 下 : 
(D 指定 作为 HASH 对 象 的 数据 集 的 名 称 ， 语 法 如 下 : 


dataset: 'dataset name' 


@ 是 否 忽略 主键 中 重复 值 的 存在 ， 语 法 如 下 : 


duplicate: 'option' 


默认 情况 下 只 存储 重复 数值 中 的 首 条 记录 ,忽略 重复 数值 的 后 续 记 录 。 若 使 用 'replace' | 'r 
表示 只 存储 重复 数值 中 的 最 后 一 条 记录 , 忽略 之 前 的 重复 值 记录 ; 而 'error | 'e' 表 示 如 果 遇 到 重 
复数 值 则 报错 。 

© 是 否 对 主键 排序 。 语 法 如 下 : 


ordered: 'option' 


默认 情况 下 ， 对 主键 并 不 做 排序 处 理 。 选 项 为 YES' | 'Y' 表 示 对 主键 进行 排序 ， 默 认为 升 
序 顺 序 ，NO' | 'N' 表 示 不 排序 。'ascending' | 'a' 表 示 按 照 升 序 顺序 排序 ， 而 'descending' | 'd' 表 示 
按照 降序 顺序 排序 。 

3) 指定 HASH 对 象 的 主键 和 信息 变量 ， 并 结束 HASH 对 象 的 初始 化 。 相 关 语 法 如 下 : 


myhash.definekey( key"); 
myhash.definedata(' data"); 
myhash.definedone(); 


其 中 ，myhash.definekey(key) 为 定义 HASH 对 象 的 主键 。 主 键 可 以 为 单个 变量 也 可 以 1 
多 个 变量 组 成 。myhash.definedata('data') 为 定义 信息 变量 。 信 息 变 量 不 能 为 空 ， 可 以 是 主键 
可 以 为 其 他 多 个 变量 。 需 要 注意 的 是 ， 在 指定 主键 和 信息 变量 时 ， 需 要 首先 定义 变量 的 长 度 。 

此 过 程 中 调用 了 HASH 对 象 的 方法 ， 常 用 的 方法 除 DEFINEKEY 、DEFINEDATA 和 
DEFINEDONE 外 , 还 有 FIND。DEFINEKEY 用 来 指定 HASH 对 象 的 主键 ，DEFINEDATA 用 
来 指定 HASH 对 象 的 信息 变量 ，DEFINEDONE 用 来 结束 HASH 对 象 的 初始 化 。 而 FIND 用 
来 检索 某 一 数值 是 否 出 现在 主键 中 ， 阁 检索 到 则 返回 数值 0， 没 有 检索 到 则 返回 一 个 非 零 值 ， 
可 以 利用 返回 值 来 匹配 观测 ， 实 现 MERGE 的 作用 。 

【 例 12.12】 使 用 HASH 对 象 来 筛选 数据 。 已 有 新 入 职员 工 信 息 表 ， 在 所 有 员工 销售 额 
表 中 筛选 出 新 入 职员 工 的 销售 额 。 


FIAR R TIR E 
Data id_newly; 


E 


T 


input id$ epl ym; 
cards; 
1101 201201 
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run; 


1102 201201 
1123 201203 
1105 201202 
1104 201202 
1115 201202 


E 


族 每 位 员工 的 销售 额 及 销售 级 别 */ 


data 


EUR 
BE 


sales all; 
input id $ grade$ amt; 
cards; 

1001 A 561 
1101 C 256 
1002 B 421 
1003 A 691 
1005 A 555 
1004 B 398 
1015 A 402 
1102 C 128 
1123 D 96 
1105 C 196 
1104 D 89 
1086 B 632 
1093 A 701 
1115 C 221 


E 


EH HASH 第 选 新 员工 的 销售 额 */ 


sales newly; 

Length id $8 epl ym 8; 

If n-1 then do; 

Declare hash newly(dataset'id newly"); 
newly.definekey('1d"); 
newly.definedata('epl ym'); 
newly.definedone(); 

end; 


set sales all; 


/#* 数 据 集 sales all 中 的 id 值 能 够 在 HASH XI newly 中 检索 到 


run; 


【程序 解 


rc=newly.find(key:id); 
if rc=0; 


读 】 


1) 使 用 数据 集 id_newly 定义 HASH 对 象 ，id Jy: &, (FE 
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ki) 


E JJ epl ym. 


2) newly.find(key:id) 是 调用 FIND. 方法 检索 数据 集 sales all 中 变量 id 的 值 是 否 出 现在 
HASH 对 象 主键 中 。 如 果 括 号 中 的 内 


容 为 空 ，SAS 默认 自动 


匹配 HASH 对 象 的 主键 和 数据 集 


中 的 同名 变量 来 检索 。 
3) IF 语句 是 将 检索 到 的 id 也 就 是 两 者 的 交集 输出 到 结果 中 。 
结果 显示 如 表 12-11 所 示 。 
表 12-11 数据 集 sales-newly 信息 显示 
id epl ym grade amt rc 
1101 201201 c 256 0 
1102 201201 C 128 0 
1123 201203 D 96 0 
1105 201202 C 196 0 
1104 201202 D 89 0 
1115 201202 C 221 0 


【 例 12.13】 使 用 HASH 对 象 来 拼接 数据 。 接 上 例 ， 根 据 销售 


计算 新 员工 销售 额 并 计生 


/# 销 售 等 级 对 应 


data grade; 


佣金 。 
金 比 例 */ 


input grade $ rate; 


cards; 
A 0.20 
B 0.18 
C0.15 
D 0.10 
E 0.05 


E 


run; 


PESE 


Data csm amt; 


if n -0 then do; 
set id newly grade; 


end; 


else if n-1 then do; 


declare hash newly(datasetid newly; 


newly.definekey('1d); 


newly.definedata('epl ym); 


newly.definedone(); 


declare hash  grd(dataset:'grade"); 


grd.definekey('grade"); 


grd.definedata('rate"); 
grd.definedone(); 


级 别 对 应 佣金 比例 参数 表 ， 
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end; 

/* call missing (of all );*/ 
set sales all; 
rc1-newly.find(key:id); 
rc2-grd.find(key:grade); 
if rc1-0 then csm amt-amt*rate; 


run; 


【程序 解读 】 


1) 使 用 数据 集 id newly 定义 HASH 对 象 newly» 
2) 使 用 数据 集 grade 定义 HASH 对 象 grd。 
3) 调用 FIND 方法 拼接 id 对 应 的 emp_ym 和 grade 对 应 的 rate。 


4) 如 果 是 新 员工 ， 计 算 佣 金 。 
结果 显示 如 表 12-12 所 示 。 


表 12-12 ”数据 集 csm-amt 信息 显示 


id epl ym grade rate amt csm amt 
1001 0.2 561 

1101 20120 C 0.15 256 384 
1002 20120 B 0.18 421 

1003 20120 A 0.2 691 

1005 20120 A 0.2 555 

1004 20120 B 0.18 398 

1015 20120 A 0.2 402 

1102 20120 C 0.15 128 19.2 
1123 201203 D 0.1 96 9.6 
1105 201202 C 0.15 196 29.4 
1104 201202 D 0.1 89 8.9 
1086 201202 B 0.18 632 

1093 201202 A 0.2 701 

1115 201202 C 0.15 221 33.15 


通过 结果 可 以 看 出 每 位 新 员工 都 计算 了 佣金 金 


除 第 一 条 观测 外 非 新 员工 的 入 职 月 份 epl_ ym 字段 也 有 值 ， 原 因 何 如 
PDV， 知 道 PDV 中 的 变量 并 不 会 自动 清除 数值 ， 当 新 的 观测 读 


额 ， 而 非 新 员 了 


[此 字段 为 缺失 。 但 是 发 现 
E 呢 ? 本章 开头 J 
入 时 ， 如 果 PDV 中 变量 的 数 


解 过 


值 没有 被 更 新 则 此 数值 会 被 保留 并 加 入 到 读 入 观测 中 去 。 在 上 例 中 ， 从 数据 集 sales all 中 读 
取 第 二 条 观测 时 ,id 等 于 1101 可 以 在 HASH 对 象 中 检索 到 , 同时 emp. ly 的 数值 被 读 入 到 PDV 


数值 并 没有 清除 ， 此 数值 被 保留 下 来 并 且 加 入 到 了 第 三 条 观测 中 。 
H MISSING 函数 ,在 下 一 次 读 入 观测 前 将 变量 数值 清除 .将 程序 中 


肥 注 释 后 运行 结果 如 表 12-13 所 示 。 
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中 。 当 读 入 第 三 条 观测 时 ， 虽 然 id 等 于 1002 在 HASH 对 象 中 没有 找到 ， 但 是 由 于 emp ly 的 
要 解决 这 个 问题 ， 需 要 调 
的 语句 call missing (of all ) 


表 12-13 加 MISSING 函数 后 数据 集 csm-amt 信息 显示 


id epl ym grade rate amt csm amt 
1001 A 02 561 
1101 201201 C 0.15 256 384 
1002 B 0.18 421 
1003 A 02 691 
1005 A 02 555 
1004 B 0.18 398 
1015 A 02 402 
1102 201201 C 0.15 128 192 
1123 201203 D 0.1 96 9.6 
1105 201202 C 0.15 196 294 
1104 201202 D 0.1 89 8.9 
1086 B 0.18 632 
1093 A 0.2 701 
1115 201202 c 0.15 221 33.15 
本 例 中 在 指定 变量 长 度 时 ， 利 用 SAS 先 编译 后 执行 的 原理 通过 一 次 性 指定 变量 长 度 。 如 
果 定 义 HASH 对 象 的 数据 集中 信息 变量 个 数 比 较 多 ， 则 可 以 在 调用 DEFINEDATA 时 使 用 


“ ALL » 选项 


【 例 12.14】 调用 DEFINEDATA 时 使 用 “ALL” 选 项 。 


f* NER FS US 


data 


data 


data 


team info; 

input team $ open ym grade employees; 
cards; 

A 201201 12 6 

B 201202 119 

C 201205 9 12 

D 201206 7 20 

E 201205 89 

F 201206 10 23 


EJ 


employ new; 

input id $ team $; 
cards; 

2001 C 

2036 D 


E 


newly info; 
if n -0 then do; 
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setteam info; 
end; 
else if n -1 then do; 
declare hash  t(dataset;'team info"); 
t.definekey('team"); 
t.definedata(all:'yes*); 
t.definedone(); 
end; 
call missing (of all ); 
set employ new; 
rc-t.find(); 
run; 
HASH 对 象 的 应 用 和 自 定 义 FORMAT 格式 的 应 用 有 很 多 相似 之 处 ， 在 数据 查询 时 省 去 
了 很 多 数据 集 之 间 的 拼接 , 减少 了 数据 处 理 过 程 中 SORT 和 MERGE 的 使 用 , 提高 了 数据 处 
理 效率 。 但 是 两 者 有 所 区 别 ，HASH 对 象 的 效率 更 高 一 些 ， 但 HASH 对 象 每 次 都 需要 在 
DATA 步 过 程 中 定义 ， 并 会 消耗 内 存 ， 所 以 定义 HASH 对 象 的 数据 集 应 尽量 控制 观测 数 和 
变量 数量 。 而 自 定义 FORMAT 格式 虽然 内 容 丰 富 、 应 用 灵活 ， 可 以 一 次 定义 反复 调用 ， 但 
FORMAT 格式 的 存储 和 调用 同样 需要 消耗 存储 空间 , 所 以 自 定 义 FORMAT 格式 时 也 需要 考 
虑 资源 消耗 的 问题 。 
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